反復トレーニング
反復トレーニングは、複数のトレーニングサイクルを通じてモデルをファインチューニングするための体系的なアプローチです。各ラウンドは、評価によって検出された特定の弱点に対処することで、前のチェックポイント上に構築されます。この方法では、障害モードに対処する厳選された例を組み込み、要件の変化に適応し、1 回の長いトレーニング実行にコミットするのではなく、段階的に機能強化を検証することで、モデルのパフォーマンスをターゲットを絞った方法で改善できます。このプロセスは通常、SFT (教師ありファインチューニング) と RFT (報酬ベースのファインチューニング) などのパターンに従います。チェックポイントは AWS マネージドエスクロー S3 バケットに保存され、パイプライン全体でモデルタイプとトレーニング手法の一貫性を維持しながら、その後のトレーニングイテレーションで参照できます。
詳細については、「反復トレーニング」を参照してください。