報酬関数の設定 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

報酬関数の設定

報酬関数は応答品質を評価し、モデルトレーニングのフィードバックシグナルを提供します。タスク要件に一致するアプローチを選択します。

Verifiable Rewards (RLVR) による強化学習

RLVR を使用すると、コード生成や数学の推論などの目標タスクのモデルを最適化できます。検証可能なルールベースのグレーダーを使用して報酬関数を定義したり、フォーマットチェック、要約、テキストの類似性などの一般的なユースケースにready-to-useテンプレートを使用したりできます。

RLVR (カスタムコード) には 2 つのオプションがあります。

  • コンソールが提供するテンプレートを使用する - Amazon Bedrock コンソールには、grader Lambda 関数のサンプルテンプレートが用意されています。

    • グラウンドトゥルース検証による数学的推論

    • 形式検証と制約チェック

    • グレーダー Lambda 関数の定型コードを含む汎用グレーダー Lambda テンプレート

    Lambda 関数を設定する前に、Amazon Bedrock コンソールRFT ジョブの作成ページで提供されているテンプレートの指示に従ってください。

  • Bring your own Lambda function — 独自の Lambda ARN を使用して Lambda 関数を介して実行されるカスタム報酬関数を作成します。複数のグレーダーを組み合わせて 1 つのスコアを生成できます。

AI フィードバックによる強化学習 (RLAIF)

RLAIF を使用すると、指示に従ったり、チャットボットとのやり取りなどの主観的なタスクを最適化できます。一般的なユースケースではready-to-useテンプレートで AI ベースの審査員を使用して、定義した基準に基づいてレスポンスの品質を評価できます。

RLAIF (モデルを審査員として):

  • Amazon Bedrock がホストするベースモデルを審査員として選択する

  • 評価の手順を設定する

  • 評価基準とスコアリングガイドラインを定義する

Amazon Bedrock コンソールで提供されている LLM-as-Judge プロンプトテンプレートを使用できます。

  • 指示に従う (モデルのトレーニングを判断する)

  • 要約 (複数ターンダイアログ)

  • 推論評価 (専用ドメインの CoT)

  • RAG の忠実度 (コンテキストベースの Q&A)

注記
  • コンソールの Model as Judge オプションを使用すると、Amazon Bedrock は設定をトレーニング中に実行される Lambda 関数に自動的に変換します。

  • 独自の Lambda 関数を使用する場合、Lambda 実行ロールには、「」で説明されているように、モデル ID または推論プロファイルを使用してモデルを呼び出すために必要なアクセス許可が必要ですRLAIF の grader Lambda 関数のアクセス許可