設定 Amazon Nova 模型的獎勵函數 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 Amazon Nova 模型的獎勵函數

獎勵函數會評估回應品質,並為模型訓練提供意見回饋訊號。您可以使用自訂 Lambda 函數或 Amazon Bedrock 託管的基礎模型作為判斷來設定獎勵函數。引導式範本可用於簡化常見任務的獎勵函數建立,例如以下指示和格式驗證。選擇符合您任務需求的方法。

透過可驗證獎勵 (RLVR) 的強化學習

RLVR 使用可驗證的規則型分級器或ready-to-use型範本,針對程式碼產生或數學推理等目標任務最佳化模型。

RLVR (自訂程式碼) 有兩個選項:

Amazon Bedrock 主控台為分級器 Lambda 函數提供範例範本:

  • 使用 Ground Truth 驗證的數學推理

  • 格式驗證和限制條件檢查

  • 具有樣板程式碼的一般分級器 Lambda 範本

遵循 Amazon Bedrock 主控台建立 RFT 任務頁面上所提供範本中的指示。

針對複雜的邏輯、外部 APIs、多步驟計算或合併多個評估條件,使用您自己的 Lambda ARN 建立自訂獎勵函數。

注意

如果您使用自己的 Lambda 函數,請記住下列事項:

透過 AI 意見回饋 (RLAIF) 進行強化學習

RLAIF 會最佳化主觀任務的模型,例如使用 AI 型判斷器搭配ready-to-use範本的指示跟隨或聊天機器人互動。

對於 RLAIF (模型做為判斷):

  • 選取 Amazon Bedrock 託管基礎模型做為判斷

  • 設定評估指示

  • 定義評估條件和評分準則

Amazon Bedrock 主控台中可用的 LLM-as-Judge提示範本:

  • 說明如下 (判斷模型訓練)

  • 摘要 (多迴轉對話方塊)

  • 合理性評估 (專用網域的 CoT)

  • RAG 忠誠度 (內容型問答)

注意

主控台的 Model as Judge 選項會在訓練期間自動將您的組態轉換為 Lambda 函數。

Lambda 函數實作詳細資訊

實作自訂 Lambda 獎勵函數時,您的函數必須接受並傳回下列格式的資料。

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

設計指導方針

  • 排名回應 – 給予最佳答案明顯較高的分數

  • 使用一致性檢查 – 評估任務完成、格式遵循、安全性和合理長度

  • 維持穩定的擴展 – 保持標準化和不可利用的分數