本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon Bedrock 中使用強化微調來自訂模型
強化微調是 Amazon Bedrock 中的模型自訂技術。它透過教導模型,透過稱為獎勵的回饋訊號來構成「良好」回應,從而改善基礎模型的效能。雖然傳統的微調方法取決於標記的資料集,但強化微調使用意見回饋驅動的方法。這可讓模型根據獎勵訊號反覆改進。它不是從固定範例學習,而是使用獎勵函數來評估和判斷哪些回應被視為適用於特定商業使用案例。
強化微調會教導模型了解什麼會做出品質回應。您不需要大量的預先標記訓練資料。這可讓 Amazon Bedrock 中的進階模型自訂更容易存取且符合成本效益。
功能支援兩種方法來提供最佳化模型的彈性:
-
強化學習與可驗證獎勵 (RLVR) - 使用規則型分級器進行程式碼產生或數學推理等目標任務
-
從 AI 意見回饋 (RLAIF) 強化學習 - 將 AI 型判斷用於主觀任務,例如以下指示或內容管制
如需詳細資訊,請參閱設定獎勵函數。
強化微調可提供下列優點:
-
改善模型效能 - 相較於基礎模型,強化微調可改善模型準確度。這可透過訓練較小、更快速且更有效率的模型變體來最佳化價格和效能。
-
彈性的訓練資料 - Amazon Bedrock 可自動化大部分的複雜性。這可讓建置 AI 應用程式的開發人員存取強化微調。您可以使用現有的 Amazon Bedrock 模型調用日誌作為訓練資料或上傳資料集,輕鬆訓練模型。
-
安全與合規 - 在自訂程序期間,您的專屬資料永遠不會離開AWS安全、受管的環境。
支援強化微調的模型
下表顯示您可以使用強化微調來自訂的基礎模型:
| 供應商 | 模型 | 模型 ID | 單一區域模型支援 |
|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k | us-east-1 |
強化微調的運作方式
Amazon Bedrock 透過三階段程序將 RFT 工作流程完全自動化:
階段 1:回應產生
演員模型 (自訂的模型) 會從訓練資料集接收提示,並產生回應。根據預設,每個提示會產生 4 個回應。此階段支援單迴轉和多迴轉互動,可全面涵蓋不同的使用案例。
階段 2:獎勵運算
您選取的最佳化模型會評估演員模型產生的提示-回應對:
-
RLVR - 透過 Lambda 執行以計算目標分數
-
RLAIF - 根據您設定的條件和原則評估回應 (主控台會自動將這些回應轉換為 Lambda 函數)
階段 3:演員模型訓練
Amazon Bedrock 使用具有分數的提示回應對,透過使用群組相對政策最佳化 (GRPO) 的政策型學習來訓練演員模型。訓練迴圈會持續反覆執行,直到模型達到所需的效能指標或符合預先定義的停止條件為止。
Amazon Bedrock 會自動處理平行獎勵運算、訓練管道最佳化,並針對常見的強化學習挑戰實作保護措施,例如獎勵駭客入侵和政策摺疊。