为 Amazon Nova 机型设置奖励功能 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Amazon Nova 机型设置奖励功能

奖励函数评估响应质量并为模型训练提供反馈信号。您可以使用自定义 Lambda 函数或 Amazon Bedrock 托管的基础模型作为评委来设置奖励函数。引导式模板可用于简化常见任务的奖励功能创建,例如指导跟踪和格式验证。选择符合您的任务要求的方法。

通过可验证奖励 (RLVR) 进行强化学习

RLVR 使用可验证的基于规则的评分器或模板来优化目标任务(例如代码生成或数学推理)的模型。 ready-to-use

RLVR(自定义代码)有两个选项:

Amazon Bedrock 控制台为平地机 Lambda 函数提供了示例模板:

  • 具有真实性验证的数学推理

  • 格式验证和约束检查

  • 带有样板代码的通用评分器 Lambda 模板

按照 Amazon Bedrock 控制台中创建 RFT 任务页面上提供的模板中的说明进行操作。

使用您自己的 Lambda ARN 创建自定义奖励函数,用于复杂逻辑、外部计算 APIs、多步骤计算或组合多个评估标准。

注意

如果您自带了 Lambda 函数,请记住以下几点:

  • 将复杂评估的 Lambda 超时时间从默认 3 秒增加到最长 15 分钟。

  • Lambda 执行角色需要权限才能调用模型,如中所述。Amazon Nova 机型的访问和安全

通过人工智能反馈进行强化学习 (RLAIF)

RLAIF使用带有模板的基于人工智能的评委来优化主观任务的模型,例如教学跟踪或聊天机器人互动。 ready-to-use

对于 RLAIF(模特作为评委):

  • 选择 Amazon Bedrock 托管的基本模型作为评委

  • 配置评估指令

  • 定义评估标准和评分指南

Amazon Bedrock 控制台中可用的 LLM-as-Judge提示模板:

  • 指导如下(裁判模型训练)

  • 摘要(多回合对话框)

  • 推理评估(专门领域的 CoT)

  • RAG 忠诚度(基于情境的问答)

注意

在训练期间,控制台的 “模型即判断” 选项会自动将您的配置转换为 Lambda 函数。

Lambda 函数实现细节

实现自定义 Lambda 奖励函数时,您的函数必须接受并返回以下格式的数据。

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

设计指南

  • 对回复进行排名 — 给最佳答案一个明显更高的分数

  • 使用一致的检查 — 评估任务完成情况、格式遵守情况、安全性和合理的长度

  • 保持稳定的缩放比例 — 保持分数标准化且不可被利用