本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
監控 RFT 訓練任務
在強化微調期間,您可以使用 Amazon Bedrock 主控台中的視覺化圖形和指標即時監控訓練進度。訓練指標儀表板會顯示關鍵績效指標,包括獎勵分數、損失曲線,以及隨時間改善的準確性。這些指標可協助您了解模型是否正確收斂,以及獎勵函數是否有效引導學習程序。
即時訓練指標
Amazon Bedrock 在 RFT 訓練期間提供即時監控,並顯示訓練和驗證指標的視覺化圖形。
核心訓練指標
-
訓練損失 - 測量模型從訓練資料中學習的程度
-
訓練獎勵統計資料 - 顯示獎勵函數指派的獎勵分數
-
獎勵利潤 - 測量良好和不良回應獎勵之間的差異
-
訓練和驗證集的準確性 - 顯示訓練和保留資料的模型效能
訓練進度視覺化
主控台會顯示互動式圖形,隨著 RFT 任務進行即時更新。這些視覺化效果可協助您:
-
追蹤收斂以獲得最佳效能
-
及早識別潛在的訓練問題
-
確定最佳停止點
-
比較不同 epoch 的效能
任務狀態追蹤
透過 Amazon Bedrock 主控台監控 RFT 任務狀態。
任務階段:
-
驗證
-
培訓
完成指標:
-
當訓練成功完成時,任務狀態會變更為已完成
-
自訂模型 ARN 可用於部署
-
訓練指標達到收斂閾值