本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为 Amazon Nova 机型设置奖励功能
奖励函数评估响应质量并为模型训练提供反馈信号。您可以使用自定义 Lambda 函数或 Amazon Bedrock 托管的基础模型作为评委来设置奖励函数。引导式模板可用于简化常见任务的奖励功能创建,例如指导跟踪和格式验证。选择符合您的任务要求的方法。
通过可验证奖励 (RLVR) 进行强化学习
RLVR 使用可验证的基于规则的评分器或模板来优化目标任务(例如代码生成或数学推理)的模型。 ready-to-use
RLVR(自定义代码)有两个选项:
Amazon Bedrock 控制台为平地机 Lambda 函数提供了示例模板:
-
具有真实性验证的数学推理
-
格式验证和约束检查
-
带有样板代码的通用评分器 Lambda 模板
按照 Amazon Bedrock
使用您自己的 Lambda ARN 创建自定义奖励函数,用于复杂逻辑、外部计算 APIs、多步骤计算或组合多个评估标准。
注意
如果您自带了 Lambda 函数,请记住以下几点:
-
将复杂评估的 Lambda 超时时间从默认 3 秒增加到最长 15 分钟。
-
Lambda 执行角色需要权限才能调用模型,如中所述。Amazon Nova 机型的访问和安全
通过人工智能反馈进行强化学习 (RLAIF)
RLAIF使用带有模板的基于人工智能的评委来优化主观任务的模型,例如教学跟踪或聊天机器人互动。 ready-to-use
对于 RLAIF(模特作为评委):
-
选择 Amazon Bedrock 托管的基本模型作为评委
-
配置评估指令
-
定义评估标准和评分指南
Amazon Bedrock 控制台中可用的 LLM-as-Judge提示模板:
-
指导如下(裁判模型训练)
-
摘要(多回合对话框)
-
推理评估(专门领域的 CoT)
-
RAG 忠诚度(基于情境的问答)
注意
在训练期间,控制台的 “模型即判断” 选项会自动将您的配置转换为 Lambda 函数。
Lambda 函数实现细节
实现自定义 Lambda 奖励函数时,您的函数必须接受并返回以下格式的数据。
设计指南
对回复进行排名 — 给最佳答案一个明显更高的分数
使用一致的检查 — 评估任务完成情况、格式遵守情况、安全性和合理的长度
保持稳定的缩放比例 — 保持分数标准化且不可被利用