在 Amazon Bedrock 中通过钢筋微调来自定义模型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Bedrock 中通过钢筋微调来自定义模型

钢筋微调是 Amazon Bedrock 中的一种模型定制技术。它通过称为奖励的反馈信号向模型传授什么构成 “良好” 的响应,从而提高基础模型的性能。传统的微调方法依赖于标注的数据集,而强化微调则使用反馈驱动的方法。这允许模型根据奖励信号进行迭代改进。它没有从固定的示例中学习,而是使用奖励函数来评估和判断哪些响应被认为对特定的业务用例有利。

强化微调可以教会模型了解什么才是高质量的响应。您不需要大量预先标记的训练数据。这使得 Amazon Bedrock 中的高级模型定制更易于访问且更具成本效益。

该功能支持两种为模型优化提供灵活性的方法:

  • 具有可验证奖励的强化学习 (RLVR)-使用基于规则的评分器完成目标任务,例如代码生成或数学推理

  • 通过@@ 人工智能反馈进行强化学习 (RLAIF)-使用基于人工智能的评判来完成主观任务,例如教学跟踪或内容审核

有关更多信息,请参阅 设置奖励功能

钢筋微调可以提供以下好处:

  • 改善模型性能-与基础模型相比,钢筋微调可提高模型精度。这可以通过训练更小、更快、更高效的模型变体来优化价格和性能。

  • 灵活的训练数据-Amazon Bedrock 可以自动完成大部分复杂的工作。这使得构建 AI 应用程序的开发人员可以进行强化微调。您可以使用现有 Amazon Bedrock 模型调用日志作为训练数据或上传数据集轻松训练模型。

  • 安全性与合规性-在定制过程中,您的专有数据永远不会离开AWS安全、受管控的环境。

支持钢筋微调的模型

下表显示了可以通过钢筋微调进行自定义的基础模型:

支持钢筋微调的模型
Provider 模型 模型 ID 支持单区域模型
Amazon 新星 2 精简版 amazon.nova-2-lite-v 1:0:256 k us-east-1

钢筋微调的工作原理

Amazon Bedrock 通过三个阶段的流程实现了 RFT 工作流程的完全自动化:

第 1 阶段:生成响应

actor 模型(正在自定义的模型)从您的训练数据集接收提示并生成响应。默认情况下,它会为每个提示生成 4 个响应。该阶段支持单回合和多回合交互,可以全面覆盖不同的用例。

第 2 阶段:奖励计算

Actor 模型生成的提示响应对由您选择的优化模型进行评估:

  • RLVR-通过 L ambda 执行以计算客观分数

  • RLAIF-根据您配置的标准和原则评估响应(控制台会自动将其转换为 Lambda 函数)

第 3 阶段:演员模特训练

Amazon Bedrock 使用带有分数的即时响应对,使用组相对策略优化 (GRPO) 通过基于策略的学习来训练行为者模型。训练循环以迭代方式继续,直到模型达到所需的性能指标或满足预定义的停止标准。

Amazon Bedrock 会自动处理并行奖励计算、训练管道优化,并针对奖励黑客攻击和政策崩溃等常见强化学习挑战实施防范措施。