Amazon SageMaker HyperPod でのファインチューニング (RFT) の強化 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod でのファインチューニング (RFT) の強化

Reinforcement Fine-Tuning (RFT) は、正確な回答で直接監視するのではなく、測定可能なスコアや応答品質を示す報酬などのフィードバックシグナルを通じてモデルのパフォーマンスを向上させる機械学習手法です。入出力ペアから学習する従来の教師ありファインチューニングとは異なり、RFT は報酬関数を使用してモデルレスポンスを評価し、モデルを繰り返し最適化してこれらの報酬を最大化します。

このアプローチは、正確な出力を定義するのが困難なタスクに特に効果的ですが、応答品質を確実に測定できます。RFT を使用すると、モデルはトライアルとフィードバックを通じて複雑な動作や好みを学習できるため、微妙な意思決定、創造的な問題解決、またはプログラムで評価できる特定の品質基準への準拠を必要とするアプリケーションに最適です。

RFT を使用するタイミング

明確で測定可能な成功基準を定義できるが、トレーニングのための正確な出力の提供に苦労する場合は、RFT を使用します。これは、クリエイティブな記述、コードの最適化、複雑な推論など、品質が主観的または多面的であり、複数の有効なソリューションが存在するが、いくつかは他のものよりも明らかに優れているタスクに最適です。

RFT は、以下がある場合に最適です。

  • プログラムでモデル出力を評価できる信頼性の高い報酬関数

  • モデルの動作を特定の好みや制約に合わせる必要がある

  • 高品質のラベル付き例の収集が高価または非実用的であるため、従来の教師ありファインチューニングが短くなる状況

反復的な改善、パーソナライゼーション、または報酬シグナルとしてエンコードできる複雑なビジネスルールの遵守を必要とするアプリケーションには、RFT を検討してください。

RFT が適しているもの

RFT は、出力品質を客観的に測定できるが、最適なレスポンスを事前に定義することが難しいドメインに優れています。

  • 数学的問題解決: 複数のソリューションパスで検証可能な正確性

  • コードの生成と最適化: テスト可能な実行結果とパフォーマンスメトリクス

  • 科学的推論タスク: 論理整合性と事実精度

  • 構造化データ分析: プログラムで検証可能な出力

  • マルチステップ推論: step-by-stepの論理的進行を必要とするタスク

  • ツールの使用状況と API コール: 実行結果によって測定可能な成功

  • 複雑なワークフロー: 特定の制約とビジネスルールの遵守

RFT は、精度、効率、スタイルなど、複数の競合する目標のバランスを取る必要がある場合に非常にうまく機能します。

RFT トレーニングに推論モードを使用するタイミング

Amazon Nova 2.0 は、RFT トレーニング中の推論モードをサポートしています。次のモードを使用できます。

  • none: 理由なし (Reasoning_effort フィールドを省略)

  • low: 推論オーバーヘッドを最小限に抑える

  • high: 最大推論機能 (Reasoning_effort が指定されている場合のデフォルト)

注記

RFT にメディアオプションはありません。reasoning_effort フィールドが設定にない場合、推論は無効になります。

次の点について高い推論を使用します。

  • 複雑な分析タスク

  • 数学的な問題解決

  • 複数ステップの論理的減算

  • step-by-stepの思考が価値を追加するタスク

以下には、なし (Reasoning_effort を省略) または低い推論を使用します。

  • 単純な事実クエリ

  • 直接分類

  • 速度とコストの最適化

  • 簡単な質問への回答

重要

推論モードが高いほど、トレーニングの時間とコスト、推論のレイテンシーとコストが増加しますが、複雑な推論タスクのモデル機能も増加します。

サポートされているモデル

SageMaker HyperPod の RFT は、Amazon Nova Lite 2.0 (amazon.nova-2-lite-v1:0:256k) をサポートしています。

主なステップ

RFT プロセスには 4 つの主要なフェーズがあります。

  • 評価者の実装: 報酬関数を作成して、品質基準に基づいてモデルレスポンスをプログラムでスコアリングします。

  • プロンプトのアップロード: 評価用のリファレンスデータを使用して、指定された会話形式でトレーニングデータを準備してアップロードします。

  • ジョブの開始: 設定したパラメータを使用して強化ファインチューニングプロセスを起動します。

  • モニタリング: メトリクスダッシュボードを使用してトレーニングの進行状況を追跡し、モデルが効果的に学習できるようにします。

各ステップは前のステップに基づいて構築され、評価者は一貫したフィードバックシグナルを提供することでトレーニングプロセス全体をガイドする基盤として機能します。