本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 上的強化微調 (RFT)
強化微調 (RFT) 是一種機器學習技術,可透過意見回饋訊號 - 可測量的分數或指出回應品質的獎勵 - 改善模型效能,而不是直接監督並準確回答。與從輸入輸出對中學習的傳統監督式微調不同,RFT 使用獎勵函數來評估模型回應,並反覆最佳化模型以最大化這些獎勵。
此方法對於定義確切正確輸出具有挑戰性的任務特別有效,但您可以可靠地測量回應品質。RFT 可讓模型透過試驗和意見回饋來學習複雜的行為和偏好,非常適合需要細微決策、創意問題解決或遵守可程式設計評估的特定品質標準的應用程式。
何時使用 RFT
當您可以定義明確、可衡量的成功條件,但難以為訓練提供確切正確的輸出時,請使用 RFT。它非常適合品質主觀或多面向的任務,例如創意撰寫、程式碼最佳化或複雜推理,其中有多個有效解決方案,但有些解決方案明顯優於其他解決方案。
當您有以下項目時,RFT 最有效:
-
可靠的獎勵函數,可透過程式設計方式評估模型輸出
-
需要使模型行為符合特定偏好設定或限制條件
-
傳統監督式微調由於收集高品質標籤範例昂貴或不切實際而縮短的情況
對於需要反覆改進、個人化或遵守可編碼為獎勵訊號的複雜業務規則的應用程式,請考慮 RFT。
RFT 最適合什麼
RFT 在可以客觀測量輸出品質,但難以預先定義最佳回應的網域中表現卓越:
-
數學問題解決:具有多個解決方案路徑的可驗證正確性
-
程式碼產生和最佳化:可測試的執行結果和效能指標
-
科學推理任務:邏輯一致性和事實準確性
-
結構化資料分析:以程式設計方式驗證的輸出
-
多步驟推理:需要step-by-step邏輯進展的任務
-
工具用量和 API 呼叫:執行結果可衡量的成功
-
複雜工作流程:遵守特定限制條件和業務規則
當您需要平衡多個競爭目標,例如準確性、效率和風格時,RFT 的效果非常好。
何時使用推理模式進行 RFT 訓練
Amazon Nova 2.0 支援 RFT 訓練期間的推理模式。下列模式可供使用:
-
無:無推理 (省略 reasoning_effort 欄位)
-
低:最低推理開銷
-
高:推理功能上限 (指定 reasoning_effort 時預設為預設值)
注意
RFT 沒有媒體選項。如果組態中沒有 reasoning_effort 欄位,則會停用推理。
針對下列項目使用高推理:
-
複雜的分析任務
-
數學問題解決
-
多步驟邏輯扣除
-
step-by-step思考可增加價值的任務
對下列項目不使用 (省略 reasoning_effort) 或低推理:
-
簡單事實查詢
-
直接分類
-
速度和成本最佳化
-
直接回答問題
重要
較高的推理模式會增加訓練時間和成本、推論延遲和成本,但也會提高複雜推理任務的模型功能。
支援的模型
SageMaker HyperPod 上的 RFT 支援 Amazon Nova Lite 2.0 (amazon.nova-2-lite-v1:0:256k)。
主要步驟
RFT 程序包含四個關鍵階段:
-
實作評估者:建立獎勵函數,根據您的品質條件以程式設計方式對模型回應進行評分。
-
上傳提示:準備和上傳指定對話格式的訓練資料,以及評估的參考資料。
-
啟動任務:使用您設定的參數啟動強化微調程序。
-
監控:透過指標儀表板追蹤訓練進度,以確保模型有效地學習。
每個步驟都以上一個步驟為基礎,評估者做為透過提供一致的意見回饋訊號來引導整個訓練程序的基礎。