View a markdown version of this page

在 Amazon Bedrock 中通过钢筋微调来自定义模型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Bedrock 中通过钢筋微调来自定义模型

强化微调是 Amazon Bedrock 中的一种模型定制技术,它通过称为奖励的反馈信号向模型传授什么构成 “良好” 的响应,从而提高基础模型的性能。与依赖于标记数据集的传统微调方法不同,强化微调使用反馈驱动的方法来迭代优化模型,以最大限度地提高这些回报。

加固微调应用和场景

当您可以定义清晰、可衡量的成功标准来评估响应质量时,请使用强化微调。钢筋微调在可以客观测量输出质量的领域中表现出色,尤其是在存在多个有效响应或难以预先定义最佳响应时。该方法适用于:

  • 数学问题解决和代码生成(使用基于规则的评分器进行客观评估)

  • 科学推理与结构化数据分析

  • 主观任务,例如教学跟进、内容审核和创意写作(使用 AI-based 评委)

  • 需要逐步推理或多轮问题求解的任务

  • 存在多种可行方案,但部分方案明显更优的场景

  • 兼顾多个目标(准确率、效率、风格)的应用

  • 需要迭代改进、个性化或遵循复杂业务规则的应用

  • 可通过执行结果或性能指标以编程方式验证成功与否的场景

  • 收集高质量标注样本成本过高或不切实际的情况

钢筋微调的好处

  • 提高模型性能 — 与基础模型相比,钢筋微调平均可将模型精度提高多达 66%。这可以通过微调更小、更快、更高效的模型变体来优化价格和性能。

  • 易用性 — Amazon Bedrock 可自动完成复杂的强化微调,让开发者可以轻松构建 AI 应用程序。您可以使用上传的数据集或现有的 API 调用日志对模型进行微调。您可以使用 Lambda 或 model-as-a-judge 评分器定义奖励函数,使用自定义代码对模型输出进行评分,并使用有助于快速设置的内置模板。

  • 安全性与合规性 — 在定制过程中,您的专有数据永远不会离开 AWS安全、受管控的环境。

支持钢筋微调的模型

下表显示了可以通过钢筋微调进行自定义的基础模型:

支持钢筋微调的模型
Provider 模型 模型 ID 区域名称 Region
Amazon Nova 2 Lite amazon.nova-2-lite-v1:0:256k

美国东部(弗吉尼亚州北部)

us-east-1

OpenAI gpt-oss-20b openai.gpt-oss-20b 美国西部(俄勒冈州) us-west-2
Qwen Qwen3 32B qwen.qwen3-32b 美国西部(俄勒冈州) us-west-2

钢筋微调的工作原理

Amazon Bedrock 可实现钢筋微调工作流程的完全自动化。该模型从您的训练数据集中接收提示,并针对每个提示生成多个响应。然后通过奖励函数对这些响应进行评分。Amazon Bedrock 使用带有分数的即时响应对,使用组相对策略优化 (GRPO) 通过基于策略的学习来训练模型。训练循环一直持续到训练数据的末尾,或者你在选定的检查点停止作业,生成一个针对你重要的指标进行了优化的模型。

强化微调最佳实践

  • 从小处着手 — 从 100-200 个示例开始,验证奖励功能的正确性,然后根据结果逐步缩放

  • 预微调评估 — 在钢筋微调之前测试基线模型性能。如果奖励始终为0%,请先使用监督微调来建立基本能力。如果奖励大于95%,则可能没有必要进行强化微调

  • 监控培训-跟踪平均奖励分数和分配。注意是否过度拟合(训练奖励增加,而验证奖励减少)。寻找令人担忧的模式,例如奖励稳定在 0.15 以下、奖励差异随着时间的推移而增加以及验证绩效下降

  • 优化奖励函数 — 在几秒钟(而不是几分钟)内执行,尽量减少外部 API 调用,使用高效算法,实施适当的错误处理,并利用 Lambda 的并行扩展

  • 迭代策略 — 如果奖励没有改善,请调整奖励功能设计,增加数据集的多样性,添加更多具有代表性的示例,并验证奖励信号是否清晰一致