Verifiable Rewards (RLVR) による強化学習 AI フィードバックによる強化学習 (RLAIF)Lambda 関数の実装の詳細

Amazon Nova モデルの報酬関数の設定

報酬関数は、応答品質を評価し、モデルトレーニングのフィードバックシグナルを提供します。カスタム Lambda 関数または Amazon Bedrock がホストする基盤モデルを審査員として使用して報酬関数を設定できます。ガイド付きテンプレートを使用すると、指示に従う、形式検証などの一般的なタスクの報酬関数の作成を簡素化できます。タスク要件に一致するアプローチを選択します。

Verifiable Rewards (RLVR) による強化学習

RLVR は、検証可能なルールベースのグレーダーまたはready-to-useテンプレートを使用して、コード生成や数学の推論などの目標タスクのモデルを最適化します。

RLVR (カスタムコード) には 2 つのオプションがあります。

Amazon Bedrock コンソールには、grader Lambda 関数のサンプルテンプレートが用意されています。

グラウンドトゥルース検証による数学的推論
形式検証と制約チェック
定型コードを使用した汎用グレーダー Lambda テンプレート

Amazon Bedrock コンソールの RFT ジョブの作成ページで提供されているテンプレートの指示に従ってください。

複雑なロジック、外部 APIs、複数ステップの計算、または複数の評価基準の組み合わせに独自の Lambda ARN を使用してカスタム報酬関数を作成します。

注記

独自の Lambda 関数を使用する場合は、次の点に注意してください。

複雑な評価では、Lambda タイムアウトをデフォルトの 3 秒から最大 15 分に増やします。
Lambda 実行ロールには、「」で説明されているようにモデルを呼び出すためのアクセス許可が必要ですAmazon Nova モデルのアクセスとセキュリティ。

AI フィードバックによる強化学習 (RLAIF)

RLAIF は、ready-to-useテンプレートを持つ AI ベースの審査員を使用した指示フォローやチャットボットインタラクションなどの主観的なタスクのモデルを最適化します。

RLAIF (モデルを審査員として):

Amazon Bedrock がホストするベースモデルを審査員として選択する
評価の手順を設定する
評価基準とスコアリングガイドラインを定義する

Amazon Bedrock コンソールで使用可能な LLM-as-Judge プロンプトテンプレート:

指示に従う (モデルのトレーニングを判断する)
要約 (複数ターンダイアログ)
推論評価 (専用ドメインの CoT)
RAG の忠実度 (コンテキストベースの Q&A)

注記

コンソールの Model as Judge オプションは、トレーニング中に設定を Lambda 関数に自動的に変換します。

Lambda 関数の実装の詳細

カスタム Lambda 報酬関数を実装する場合、関数は次の形式でデータを受け入れて返す必要があります。

設計ガイドライン

回答をランク付けする – 最も良い回答に明らかに高いスコアを付けます
一貫したチェックを使用する – タスクの完了、形式の遵守、安全性、妥当な長さを評価する
安定したスケーリングを維持する – スコアを正規化し、爆発させない

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データの準備

ファインチューニングジョブを作成する