本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon Bedrock 中通过钢筋微调来自定义模型
<a name="reinforcement-fine-tuning"></a>

强化微调是 Amazon Bedrock 中的一种模型定制技术，它通过称为奖励的反馈信号向模型传授什么构成 “良好” 的响应，从而提高基础模型的性能。与依赖于标记数据集的传统微调方法不同，强化微调使用反馈驱动的方法来迭代优化模型，以最大限度地提高这些回报。

## 加固微调应用和场景
<a name="reinforcement-fine-tuning-when"></a>

当您可以定义清晰、可衡量的成功标准来评估响应质量时，请使用强化微调。钢筋微调在可以客观测量输出质量的领域中表现出色，尤其是在存在多个有效响应或难以预先定义最佳响应时。该方法适用于：
+ 数学问题解决和代码生成（使用基于规则的评分器进行客观评估）
+ 科学推理与结构化数据分析
+ 主观任务，例如教学跟进、内容审核和创意写作（使用 AI-based 评委）
+ 需要逐步推理或多轮问题求解的任务
+ 存在多种可行方案，但部分方案明显更优的场景
+ 兼顾多个目标（准确率、效率、风格）的应用
+ 需要迭代改进、个性化或遵循复杂业务规则的应用
+ 可通过执行结果或性能指标以编程方式验证成功与否的场景
+ 收集高质量标注样本成本过高或不切实际的情况

## 钢筋微调的好处
<a name="reinforcement-fine-tuning-benefits"></a>
+ **提高模型性能** — 与基础模型相比，钢筋微调平均可将模型精度提高多达 66%。这可以通过微调更小、更快、更高效的模型变体来优化价格和性能。
+ **易用性** — Amazon Bedrock 可自动完成复杂的强化微调，让开发者可以轻松构建 AI 应用程序。您可以使用上传的数据集或现有的 API 调用日志对模型进行微调。您可以使用 Lambda 或 model-as-a-judge 评分器定义奖励函数，使用自定义代码对模型输出进行评分，并使用有助于快速设置的内置模板。
+ **安全性与合规性** — 在定制过程中，您的专有数据永远不会离开 AWS安全、受管控的环境。

## 支持钢筋微调的模型
<a name="rft-supported-models"></a>

下表显示了可以通过钢筋微调进行自定义的基础模型：


**支持钢筋微调的模型**  

| Provider | 模型 | 模型 ID | 区域名称 | Region | 
| --- | --- | --- | --- | --- | 
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k | 美国东部（弗吉尼亚州北部） | us-east-1 | 
| OpenAI | gpt-oss-20b | openai.gpt-oss-20b | 美国西部（俄勒冈州） | us-west-2 | 
| Qwen | Qwen3 32B | qwen.qwen3-32b | 美国西部（俄勒冈州） | us-west-2 | 

## 钢筋微调的工作原理
<a name="rft-how-it-works"></a>

Amazon Bedrock 可实现钢筋微调工作流程的完全自动化。该模型从您的训练数据集中接收提示，并针对每个提示生成多个响应。然后通过奖励函数对这些响应进行评分。Amazon Bedrock 使用带有分数的即时响应对，使用组相对策略优化 (GRPO) 通过基于策略的学习来训练模型。训练循环一直持续到训练数据的末尾，或者你在选定的检查点停止作业，生成一个针对你重要的指标进行了优化的模型。

## 强化微调最佳实践
<a name="rft-best-practices"></a>
+ **从小**处着手 — 从 100-200 个示例开始，验证奖励功能的正确性，然后根据结果逐步缩放
+ **预微调评估** — 在钢筋微调之前测试基线模型性能。如果奖励始终为0％，请先使用监督微调来建立基本能力。如果奖励大于95％，则可能没有必要进行强化微调
+ **监控培训**-跟踪平均奖励分数和分配。注意是否过度拟合（训练奖励增加，而验证奖励减少）。寻找令人担忧的模式，例如奖励稳定在 0.15 以下、奖励差异随着时间的推移而增加以及验证绩效下降
+ **优化奖励函数** — 在几秒钟（而不是几分钟）内执行，尽量减少外部 API 调用，使用高效算法，实施适当的错误处理，并利用 Lambda 的并行扩展
+ **迭代策略** — 如果奖励没有改善，请调整奖励功能设计，增加数据集的多样性，添加更多具有代表性的示例，并验证奖励信号是否清晰一致

**Topics**
+ [加固微调应用和场景](#reinforcement-fine-tuning-when)
+ [钢筋微调的好处](#reinforcement-fine-tuning-benefits)
+ [支持钢筋微调的模型](#rft-supported-models)
+ [钢筋微调的工作原理](#rft-how-it-works)
+ [强化微调最佳实践](#rft-best-practices)
+ [Fine-tune 带有加固微调功能的 Amazon Nova 型号](rft-nova-models.md)
+ [Fine-tune 开放式重量模型使用 OpenAI-兼容的 API](fine-tuning-openai-apis.md)
+ [评估您的 RFT 模型](rft-evaluate-model.md)