設定獎勵函數 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定獎勵函數

獎勵函數會評估回應品質,並為模型訓練提供意見回饋訊號。選擇符合您任務需求的方法。

透過可驗證獎勵 (RLVR) 的強化學習

RLVR 可讓您針對程式碼產生或數學推理等目標任務最佳化模型。您可以使用可驗證的規則型分級器定義獎勵函數,或針對格式檢查、摘要和文字相似性等常見使用案例使用ready-to-use範本。

RLVR (自訂程式碼) 有兩個選項:

  • 使用主控台提供的範本 - Amazon Bedrock 主控台為分級器 Lambda 函數提供範例範本:

    • 使用 Ground Truth 驗證的數學推理

    • 格式驗證和限制條件檢查

    • 一般分級器 Lambda 範本搭配分級器 Lambda 函數的樣板程式碼

    在設定 Lambda 函數之前,請遵循 Amazon Bedrock 主控台建立 RFT 任務頁面上所提供範本中的指示。

  • 使用您自己的 Lambda 函數 — 使用您自己的 Lambda ARN 透過 Lambda 函數建立自訂獎勵函數。您可以結合多個分級器來產生單一分數。

透過 AI 意見回饋 (RLAIF) 進行強化學習

RLAIF 可最佳化主觀任務,例如下列指示或聊天機器人互動。您可以針對常用案例使用 AI 型判斷搭配ready-to-use範本,根據您定義的條件評估回應品質。

對於 RLAIF (模型做為判斷):

  • 選取 Amazon Bedrock 託管基礎模型做為判斷

  • 設定評估指示

  • 定義評估條件和評分準則

您可以使用 Amazon Bedrock 主控台中提供的 LLM-as-Judge提示範本:

  • 說明如下 (判斷模型訓練)

  • 摘要 (多迴轉對話方塊)

  • 合理性評估 (專用網域的 CoT)

  • RAG 忠誠度 (以內容為基礎的問答)

注意
  • 當您使用主控台的模型做為判斷選項時,Amazon Bedrock 會自動將您的組態轉換為訓練期間執行的 Lambda 函數。

  • 如果您使用自己的 Lambda 函數,Lambda 執行角色需要必要的許可,才能叫用模型 ID 或推論描述檔的模型,如中所述RLAIF 的 Grader Lambda 函數許可