设置奖励功能

奖励函数评估响应质量并为模型训练提供反馈信号。选择与您的任务要求相匹配的方法。

通过可验证奖励 (RLVR) 进行强化学习

RLVR 使您能够针对目标任务（例如代码生成或数学推理）优化模型。您可以使用基于规则的可验证评分器来定义奖励函数，也可以将 ready-to-use模板用于常见用例，例如格式检查、摘要和文本相似度。

RLVR（自定义代码）有两个选项：

使用控制台提供的模板-Amazon Bedrock 控制台为评分器 Lambda 函数提供了示例模板：
- 带有真实性验证的数学推理
- 格式验证和约束检查
- 带有评分器 Lambda 函数的样板代码的通用评分器 Lambda 模板
在设置 Lambda 函数之前，请按照 A ma zon Bedrock 控制台中创建 RFT 任务页面上提供的模板中的说明进行操作。
自带 Lambda 函数 — 使用您自己的 Lambda ARN 创建通过 Lambda 函数执行的自定义奖励函数。您可以组合多个评分者来生成一个分数。

RLAIF 支持对主观任务进行优化，例如指导跟踪或聊天机器人交互。您可以将基于 AI 的评委与常见用例 ready-to-use模板配合使用，根据您定义的标准评估响应质量。

对于 RLAIF（模特作为评委）：

您可以使用 Amazon Bedrock 控制台中提供的 LLM-as-Judge提示模板：

当您使用控制台的 “模型作为评判” 选项时，Amazon Bedrock 会自动将您的配置转换为训练期间执行的 Lambda 函数。
如果您自带了 Lambda 函数，则 Lambda 执行角色需要必要的权限才能调用具有模型 ID 或推理配置文件的模型，如中所述。RLAIF 的评分者 Lambda 函数权限

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

训练数据源的要求

创建钢筋微调作业