監控 RFT 訓練任務 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控 RFT 訓練任務

在強化微調期間,您可以使用 Amazon Bedrock 主控台中的視覺化圖形和指標即時監控訓練進度。訓練指標儀表板會顯示關鍵績效指標,包括獎勵分數、損失曲線,以及隨時間改善的準確性。這些指標可協助您了解模型是否正確收斂,以及獎勵函數是否有效引導學習程序。

即時訓練指標

Amazon Bedrock 在 RFT 訓練期間提供即時監控,並顯示訓練和驗證指標的視覺化圖形。

核心訓練指標

  • 訓練損失 - 測量模型從訓練資料中學習的程度

  • 訓練獎勵統計資料 - 顯示獎勵函數指派的獎勵分數

  • 獎勵利潤 - 測量良好和不良回應獎勵之間的差異

  • 訓練和驗證集的準確性 - 顯示訓練和保留資料的模型效能

訓練進度視覺化

主控台會顯示互動式圖形,隨著 RFT 任務進行即時更新。這些視覺化效果可協助您:

  • 追蹤收斂以獲得最佳效能

  • 及早識別潛在的訓練問題

  • 確定最佳停止點

  • 比較不同 epoch 的效能

任務狀態追蹤

透過 Amazon Bedrock 主控台監控 RFT 任務狀態。

任務階段:

  1. 驗證

  2. 培訓

完成指標:

  • 當訓練成功完成時,任務狀態會變更為已完成

  • 自訂模型 ARN 可用於部署

  • 訓練指標達到收斂閾值