Amazon Bedrock で強化ファインチューニングを使用してモデルをカスタマイズする - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock で強化ファインチューニングを使用してモデルをカスタマイズする

強化ファインチューニングは、Amazon Bedrock のモデルカスタマイズ手法です。報酬と呼ばれるフィードバックシグナルを通じて「良い」レスポンスを構成するものをモデルに教えることで、基盤モデルのパフォーマンスを向上させます。従来のファインチューニング方法はラベル付きデータセットに依存しますが、強化ファインチューニングはフィードバック駆動型のアプローチを使用します。これにより、モデルは報酬シグナルに基づいて繰り返し改善できます。固定例から学ぶ代わりに、報酬関数を使用して、どのレスポンスが特定のビジネスユースケースに適しているかを評価して判断します。

強化ファインチューニングは、モデルが品質応答を行う内容を理解するように学習します。事前にラベル付けされた大量のトレーニングデータは必要ありません。これにより、Amazon Bedrock での高度なモデルカスタマイズがよりアクセスしやすく、費用対効果の高いものになります。

この機能は、モデルを最適化するための柔軟性を提供するための 2 つのアプローチをサポートしています。

  • 検証可能な報酬による強化学習 (RLVR) - コード生成や数学の推論などの目標タスクにルールベースのグレーダーを使用します

  • AI フィードバックからの強化学習 (RLAIF) - 指示に従ったり、コンテンツのモデレーションなどの主観的なタスクに AI ベースの判断を使用します

詳細については、「報酬関数の設定」を参照してください。

強化ファインチューニングには、次の利点があります。

  • モデルのパフォーマンスの向上 - 強化ファインチューニングは、ベースモデルと比較してモデルの精度を向上させます。これにより、より小さく、高速で、より効率的なモデルバリアントをトレーニングすることで、価格とパフォーマンスを最適化できます。

  • 柔軟なトレーニングデータ - Amazon Bedrock は複雑さの大部分を自動化します。これにより、AI アプリケーションを構築する開発者が強化ファインチューニングにアクセスできるようになります。既存の Amazon Bedrock モデル呼び出しログをトレーニングデータとして使用してモデルを簡単にトレーニングしたり、データセットをアップロードしたりできます。

  • セキュリティとコンプライアンス - カスタマイズプロセス中に専有データが AWSの安全で管理された環境を離れることはありません。

強化ファインチューニングでサポートされているモデル

次の表は、強化ファインチューニングでカスタマイズできる基盤モデルを示しています。

強化ファインチューニングでサポートされているモデル
プロバイダー モデル モデル ID 単一リージョンモデルのサポート
Amazon ノバ 2 ライト amazon.nova-2-lite-v1:0:256k us-east-1

強化ファインチューニングの仕組み

Amazon Bedrock は、3 段階のプロセスを通じて RFT ワークフローを完全に自動化します。

ステージ 1: レスポンスの生成

アクターモデル (カスタマイズ中のモデル) は、トレーニングデータセットからプロンプトを受け取り、レスポンスを生成します。デフォルトでは、プロンプトごとに 4 つのレスポンスが生成されます。このステージでは、シングルターンとマルチターンの両方のインタラクションがサポートされるため、さまざまなユースケースを包括的にカバーできます。

ステージ 2: 報酬の計算

アクターモデルが生成したプロンプトとレスポンスのペアは、選択した最適化モデルによって評価されます。

  • RLVR - Lambda を通じて実行し、目標スコアを計算する

  • RLAIF - 設定した基準と原則に基づいてレスポンスを評価します (コンソールはこれらを自動的に Lambda 関数に変換します)。

ステージ 3: アクターモデルトレーニング

Amazon Bedrock は、プロンプトとレスポンスのペアとスコアを使用して、グループ相対ポリシー最適化 (GRPO) を使用したポリシーベースの学習を通じてアクターモデルをトレーニングします。トレーニングループは、モデルが希望するパフォーマンスメトリクスを達成するか、事前定義された停止基準を満たすまで繰り返し継続します。

Amazon Bedrock は、並列報酬計算、トレーニングパイプラインの最適化を自動的に処理し、報酬ハッキングやポリシーの折りたたみなどの一般的な強化学習の課題に対する保護を実装します。