迭代训练

迭代训练是一种通过多轮训练周期对模型进行微调的系统化方法：每一轮训练都基于上一轮的检查点，通过评估发现模型的具体短板并加以改进。这种方法通过引入针对性示例修复失效场景、适配不断变化的需求，并以渐进式验证的方式提升模型效果，而非仅依赖单次长时间训练。流程通常遵循如下模式：先进行 SFT（监督式微调），再执行 RFT（基于奖励的微调）。模型检查点存储在 AWS 托管式托管 S3 存储桶中，可供后续训练迭代引用，同时在整个流程中保持模型类型与训练技术的一致性。

有关详细信息，请参考迭代训练。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

评估

基于 SageMaker HyperPod