本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
设置奖励功能
奖励函数评估响应质量并为模型训练提供反馈信号。选择与您的任务要求相匹配的方法。
通过可验证奖励 (RLVR) 进行强化学习
RLVR 使您能够针对目标任务(例如代码生成或数学推理)优化模型。您可以使用基于规则的可验证评分器来定义奖励函数,也可以将 ready-to-use模板用于常见用例,例如格式检查、摘要和文本相似度。
RLVR(自定义代码)有两个选项:
-
使用控制台提供的模板-Amazon Bedrock 控制台为评分器 Lambda 函数提供了示例模板:
-
带有真实性验证的数学推理
-
格式验证和约束检查
-
带有评分器 Lambda 函数的样板代码的通用评分器 Lambda 模板
在设置 Lambda 函数之前,请按照 A ma
zon Bedrock 控制台中创建 RFT 任务页面上提供的模板中的说明进行操作。 -
-
自带 Lambda 函数 — 使用您自己的 Lambda ARN 创建通过 Lambda 函数执行的自定义奖励函数。您可以组合多个评分者来生成一个分数。
通过人工智能反馈进行强化学习 (RLAIF)
RLAIF 支持对主观任务进行优化,例如指导跟踪或聊天机器人交互。您可以将基于 AI 的评委与常见用例 ready-to-use模板配合使用,根据您定义的标准评估响应质量。
对于 RLAIF(模特作为评委):
-
选择 Amazon Bedrock 托管的基本型号作为评委
-
配置评估指令
-
定义评估标准和评分指南
您可以使用 Amazon Bedrock 控制台中提供的 LLM-as-Judge提示模板:
-
以下是指令(裁判模型训练)
-
摘要(多回合对话框)
-
推理评估(专门领域的 CoT)
-
RAG 忠诚度(基于情境的问答)
注意
-
当您使用控制台的 “模型作为评判” 选项时,Amazon Bedrock 会自动将您的配置转换为训练期间执行的 Lambda 函数。
-
如果您自带了 Lambda 函数,则 Lambda 执行角色需要必要的权限才能调用具有模型 ID 或推理配置文件的模型,如中所述。RLAIF 的评分者 Lambda 函数权限