Amazon Nova モデルの報酬関数の設定 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Nova モデルの報酬関数の設定

報酬関数は、応答品質を評価し、モデルトレーニングのフィードバックシグナルを提供します。カスタム Lambda 関数または Amazon Bedrock がホストする基盤モデルを審査員として使用して報酬関数を設定できます。ガイド付きテンプレートを使用すると、指示に従う、形式検証などの一般的なタスクの報酬関数の作成を簡素化できます。タスク要件に一致するアプローチを選択します。

Verifiable Rewards (RLVR) による強化学習

RLVR は、検証可能なルールベースのグレーダーまたはready-to-useテンプレートを使用して、コード生成や数学の推論などの目標タスクのモデルを最適化します。

RLVR (カスタムコード) には 2 つのオプションがあります。

Amazon Bedrock コンソールには、grader Lambda 関数のサンプルテンプレートが用意されています。

  • グラウンドトゥルース検証による数学的推論

  • 形式検証と制約チェック

  • 定型コードを使用した汎用グレーダー Lambda テンプレート

Amazon Bedrock コンソールRFT ジョブの作成ページで提供されているテンプレートの指示に従います。

複雑なロジック、外部 APIs、複数ステップの計算、または複数の評価基準の組み合わせに独自の Lambda ARN を使用してカスタム報酬関数を作成します。

注記

独自の Lambda 関数を使用する場合は、次の点に注意してください。

  • 複雑な評価では、Lambda タイムアウトをデフォルトの 3 秒から最大 15 分に増やします。

  • Lambda 実行ロールには、「」で説明されているようにモデルを呼び出すためのアクセス許可が必要ですAmazon Nova モデルのアクセスとセキュリティ

AI フィードバックによる強化学習 (RLAIF)

RLAIF は、ready-to-useテンプレートを持つ AI ベースの審査員を使用した指示フォローやチャットボットとのやり取りなどの主観的なタスクのモデルを最適化します。

RLAIF (モデルを審査員として):

  • Amazon Bedrock がホストするベースモデルを審査員として選択する

  • 評価の手順を設定する

  • 評価基準とスコアリングガイドラインを定義する

Amazon Bedrock コンソールで使用可能な LLM-as-Judge プロンプトテンプレート:

  • 指示に従う (モデルのトレーニングを判断する)

  • 要約 (複数ターンダイアログ)

  • 推論評価 (専用ドメインの CoT)

  • RAG の忠実度 (コンテキストベースの Q&A)

注記

コンソールの Model as Judge オプションは、トレーニング中に設定を Lambda 関数に自動的に変換します。

Lambda 関数の実装の詳細

カスタム Lambda 報酬関数を実装する場合、関数は次の形式でデータを受け入れて返す必要があります。

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

設計ガイドライン

  • 回答をランク付けする – 最も良い回答に明らかに高いスコアを付けます

  • 一貫したチェックを使用する – タスクの完了、形式の遵守、安全性、妥当な長さを評価する

  • 安定したスケーリングを維持する – スコアを正規化し、爆発させない