加固微调应用和场景钢筋微调的好处支持钢筋微调的模型钢筋微调的工作原理强化微调最佳实践

在 Amazon Bedrock 中通过钢筋微调来自定义模型

强化微调是 Amazon Bedrock 中的一种模型定制技术，它通过称为奖励的反馈信号向模型传授什么构成 “良好” 的响应，从而提高基础模型的性能。与依赖于标记数据集的传统微调方法不同，强化微调使用反馈驱动的方法来迭代优化模型，以最大限度地提高这些回报。

加固微调应用和场景

当您可以定义清晰、可衡量的成功标准来评估响应质量时，请使用强化微调。钢筋微调在可以客观测量输出质量的领域中表现出色，尤其是在存在多个有效响应或难以预先定义最佳响应时。该方法适用于：

数学问题解决和代码生成（使用基于规则的评分器进行客观评估）
科学推理与结构化数据分析
主观任务，例如教学跟进、内容审核和创意写作（使用 AI-based 评委）
需要逐步推理或多轮问题求解的任务
存在多种可行方案，但部分方案明显更优的场景
兼顾多个目标（准确率、效率、风格）的应用
需要迭代改进、个性化或遵循复杂业务规则的应用
可通过执行结果或性能指标以编程方式验证成功与否的场景
收集高质量标注样本成本过高或不切实际的情况

钢筋微调的好处

提高模型性能 — 与基础模型相比，钢筋微调平均可将模型精度提高多达 66%。这可以通过微调更小、更快、更高效的模型变体来优化价格和性能。
易用性 — Amazon Bedrock 可自动完成复杂的强化微调，让开发者可以轻松构建 AI 应用程序。您可以使用上传的数据集或现有的 API 调用日志对模型进行微调。您可以使用 Lambda 或 model-as-a-judge 评分器定义奖励函数，使用自定义代码对模型输出进行评分，并使用有助于快速设置的内置模板。
安全性与合规性 — 在定制过程中，您的专有数据永远不会离开 AWS安全、受管控的环境。

支持钢筋微调的模型

下表显示了可以通过钢筋微调进行自定义的基础模型：

支持钢筋微调的模型
Provider	模型	模型 ID	区域名称	Region
Amazon	Nova 2 Lite	amazon.nova-2-lite-v1:0:256k	美国东部（弗吉尼亚州北部）	us-east-1
OpenAI	gpt-oss-20b	openai.gpt-oss-20b	美国西部（俄勒冈州）	us-west-2
Qwen	Qwen3 32B	qwen.qwen3-32b	美国西部（俄勒冈州）	us-west-2

钢筋微调的工作原理

Amazon Bedrock 可实现钢筋微调工作流程的完全自动化。该模型从您的训练数据集中接收提示，并针对每个提示生成多个响应。然后通过奖励函数对这些响应进行评分。Amazon Bedrock 使用带有分数的即时响应对，使用组相对策略优化 (GRPO) 通过基于策略的学习来训练模型。训练循环一直持续到训练数据的末尾，或者你在选定的检查点停止作业，生成一个针对你重要的指标进行了优化的模型。

强化微调最佳实践

从小处着手 — 从 100-200 个示例开始，验证奖励功能的正确性，然后根据结果逐步缩放
预微调评估 — 在钢筋微调之前测试基线模型性能。如果奖励始终为0％，请先使用监督微调来建立基本能力。如果奖励大于95％，则可能没有必要进行强化微调
监控培训-跟踪平均奖励分数和分配。注意是否过度拟合（训练奖励增加，而验证奖励减少）。寻找令人担忧的模式，例如奖励稳定在 0.15 以下、奖励差异随着时间的推移而增加以及验证绩效下降
优化奖励函数 — 在几秒钟（而不是几分钟）内执行，尽量减少外部 API 调用，使用高效算法，实施适当的错误处理，并利用 Lambda 的并行扩展
迭代策略 — 如果奖励没有改善，请调整奖励功能设计，增加数据集的多样性，添加更多具有代表性的示例，并验证奖励信号是否清晰一致

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

提交模型微调任务

Fine-tune 亚马逊 Nova 型号