迭代训练
迭代训练是一种通过多轮训练周期对模型进行微调的系统化方法:每一轮训练都基于上一轮的检查点,通过评估发现模型的具体短板并加以改进。这种方法通过引入针对性示例修复失效场景、适配不断变化的需求,并以渐进式验证的方式提升模型效果,而非仅依赖单次长时间训练。流程通常遵循如下模式:先进行 SFT(监督式微调),再执行 RFT(基于奖励的微调)。模型检查点存储在 AWS 托管式托管 S3 存储桶中,可供后续训练迭代引用,同时在整个流程中保持模型类型与训练技术的一致性。
有关详细信息,请参考 迭代训练。