SageMaker HyperPod 上的强化微调（RFT）

强化微调（RFT）是一种机器学习技术，它通过反馈信号（即可衡量响应质量的分数或奖励）提升模型性能，而非借助精确标准答案进行直接监督。与从输入-输出对中学习的传统监督式微调不同，RFT 使用奖励函数评测模型响应，并迭代优化模型以最大化奖励。

这种方法尤其适用于难以定义精确输出但能可靠衡量响应质量的任务。RFT 使模型能够通过尝试和反馈来学习复杂的行为与偏好，因此非常适合需要精细决策、创造性解决问题，或遵守可通过编程方式评测的特定质量标准等应用场景。

当您能够定义清晰、可衡量的成功标准，但难以提供精确的正确输出用于训练时，便可使用 RFT。该方法适用于质量具有主观性或多维度的任务，例如创意写作、代码优化或复杂推理。这类任务存在多种可行方案，但部分方案明显更优。

RFT 在以下条件下效果最佳：

应用需要迭代优化、个性化，或需遵循可编码为奖励信号的复杂业务规则时，可考虑采用 RFT。

在输出质量可客观衡量、但最优应答难以预先定义的领域，RFT 表现优异：

当您需要平衡多个相互竞争的目标（如准确性、效率和风格）时，RFT 效果尤为出色。

Amazon Nova 2.0 支持在 RFT 训练期间使用推理模式。可用模式如下：

RFT 无中等选项。如果配置中不含 reasoning_effort 字段，则禁用推理。

在以下场景使用高强度推理：

在以下场景使用无（省略 reasoning_effort）或低强度推理：

较高强度的推理模式会增加训练时间和成本、推理延迟和成本，但同时也会提升模型在复杂推理任务方面的能力。

SageMaker HyperPod 上的 RFT 支持 Amazon Nova Lite 2.0（amazon.nova-2-lite-v1:0:256k）。

RFT 过程包括四个关键阶段：

每个步骤都建立在前一步的基础上，其中评测器是指导整个训练过程的基础，它通过提供一致的反馈信号来引导模型学习。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

Nova 2.0 上的 SFT

Nova 2.0 上的 RFT