

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 設定 Amazon Nova 模型的獎勵函數
<a name="reward-functions"></a>

獎勵函數會評估回應品質，並為模型訓練提供意見回饋訊號。您可以使用自訂 Lambda 函數或 Amazon Bedrock 託管的基礎模型作為判斷來設定獎勵函數。引導式範本可用於簡化常見任務的獎勵函數建立，例如以下指示和格式驗證。選擇符合您任務需求的方法。

## 透過可驗證獎勵 (RLVR) 的強化學習
<a name="rft-rlvr"></a>

RLVR 使用可驗證的規則型分級器或ready-to-use型範本，針對程式碼產生或數學推理等目標任務最佳化模型。

RLVR （自訂程式碼） 有兩個選項：

### 選項 1：使用主控台提供的範本
<a name="w2aac17c25c17c17b5b7b1"></a>

Amazon Bedrock 主控台為分級器 Lambda 函數提供範例範本：
+ 使用 Ground Truth 驗證的數學推理
+ 格式驗證和限制條件檢查
+ 具有樣板程式碼的一般分級器 Lambda 範本

遵循 [Amazon Bedrock 主控台](https://console.aws.amazon.com/bedrock)中**建立 RFT 任務**頁面上所提供範本中的指示。

### 選項 2：使用您自己的 Lambda 函數
<a name="w2aac17c25c17c17b5b7b3"></a>

針對複雜的邏輯、外部 APIs、多步驟計算或結合多個評估條件，使用您自己的 Lambda ARN 建立自訂獎勵函數。

**注意**  
如果您使用自己的 Lambda 函數，請記住下列事項：  
將複雜評估的 Lambda 逾時從預設 3 秒增加到最長 15 分鐘。
Lambda 執行角色需要許可才能叫用模型，如中所述[Amazon Nova 模型的存取和安全性](rft-access-security.md)。

## 透過 AI 意見回饋 (RLAIF) 進行強化學習
<a name="rft-rlaif"></a>

RLAIF 會最佳化主觀任務的模型，例如使用 AI 型判斷搭配ready-to-use範本的指示跟隨或聊天機器人互動。

**對於 RLAIF （模型作為判斷）：**
+ 選取 Amazon Bedrock 託管基礎模型作為判斷
+ 設定評估指示
+ 定義評估條件和評分準則

Amazon Bedrock 主控台中可用的 LLM-as-Judge提示範本：
+ 說明如下 （判斷模型訓練）
+ 摘要 （多迴轉對話方塊）
+ 合理性評估 （專用網域的 CoT)
+ RAG 忠誠度 （內容型問答）

**注意**  
主控台的 **Model as Judge** 選項會在訓練期間自動將您的組態轉換為 Lambda 函數。

## Lambda 函數實作詳細資訊
<a name="rft-lambda-implementation"></a>

實作自訂 Lambda 獎勵函數時，您的函數必須接受並傳回下列格式的資料。

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**設計指導方針**
+ **排名回應** – 給予最佳答案明顯較高的分數
+ **使用一致性檢查** – 評估任務完成、格式遵循、安全性和合理長度
+ **維持穩定的擴展** – 保持標準化和不可利用的分數