设置奖励功能 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设置奖励功能

奖励函数评估响应质量并为模型训练提供反馈信号。选择与您的任务要求相匹配的方法。

通过可验证奖励 (RLVR) 进行强化学习

RLVR 使您能够针对目标任务(例如代码生成或数学推理)优化模型。您可以使用基于规则的可验证评分器来定义奖励函数,也可以将 ready-to-use模板用于常见用例,例如格式检查、摘要和文本相似度。

RLVR(自定义代码)有两个选项:

  • 使用控制台提供的模板-Amazon Bedrock 控制台为评分器 Lambda 函数提供了示例模板:

    • 带有真实性验证的数学推理

    • 格式验证和约束检查

    • 带有评分器 Lambda 函数的样板代码的通用评分器 Lambda 模板

    在设置 Lambda 函数之前,请按照 A ma zon Bedrock 控制台中创建 RFT 任务页面上提供的模板中的说明进行操作。

  • 自带 Lambda 函数 — 使用您自己的 Lambda ARN 创建通过 Lambda 函数执行的自定义奖励函数。您可以组合多个评分者来生成一个分数。

通过人工智能反馈进行强化学习 (RLAIF)

RLAIF 支持对主观任务进行优化,例如指导跟踪或聊天机器人交互。您可以将基于 AI 的评委与常见用例 ready-to-use模板配合使用,根据您定义的标准评估响应质量。

对于 RLAIF(模特作为评委):

  • 选择 Amazon Bedrock 托管的基本型号作为评委

  • 配置评估指令

  • 定义评估标准和评分指南

您可以使用 Amazon Bedrock 控制台中提供的 LLM-as-Judge提示模板:

  • 以下是指令(裁判模型训练)

  • 摘要(多回合对话框)

  • 推理评估(专门领域的 CoT)

  • RAG 忠诚度(基于情境的问答)

注意
  • 当您使用控制台的 “模型作为评判” 选项时,Amazon Bedrock 会自动将您的配置转换为训练期间执行的 Lambda 函数。

  • 如果您自带了 Lambda 函数,则 Lambda 执行角色需要必要的权限才能调用具有模型 ID 或推理配置文件的模型,如中所述。RLAIF 的评分者 Lambda 函数权限