別の LLM-as-a-judge を使用してモデルのパフォーマンスを評価する

ジャッジモデルを使用するモデル評価ジョブでは、Amazon Bedrock は LLM を使用して別のモデルの応答をスコアリングし、プロンプトと応答の各ペアをどのようにスコアリングしたかを説明します。スコアと説明は、Amazon Bedrock コンソールの [評価] ページから確認できます。

このようなモデル評価には、ジェネレーターモデルと評価者モデルという 2 つの異なるモデルが必要です。データセットでジェネレーターモデルのプロンプトを定義すると、選択したメトリクスに基づいて評価者モデルがそれらのプロンプトへの応答をスコアリングします。

コンソールのメトリクス概要カードには、応答に特定のスコアが付けられた回数を示すヒストグラムと、データセット内で見つかった最初の 5 つのプロンプトのスコアの説明が表示されます。完全な評価ジョブレポートは、モデル評価ジョブの作成時に指定した Amazon S3 バケットにあります。

モデル評価ジョブを作成するときは、ジェネレーターモデルとして Amazon Bedrock モデルを選択するか、プロンプトデータセットに独自の推論レスポンスデータを指定して Amazon Bedrock 以外のモデルを評価できます。独自の応答データを指定した場合、Amazon Bedrock はモデル呼び出しステップをスキップし、指定したデータを直接評価します。

ジェネレーターモデルの応答を評価するために、Amazon Bedrock には、選択可能な一連の組み込みメトリクスが用意されています。メトリクスごとに異なるプロンプトが評価者モデルで使用されます。特定のビジネスケース用に独自のカスタムメトリクスを定義することもできます。詳細については、「メトリクスを使用してモデルのパフォーマンスを把握する」を参照してください。

サポートされているモデル

サポートされている評価者モデル (組み込みメトリクス)

Amazon Bedrock の組み込みメトリクスとともに LLM-as-a-judge を使用する評価ジョブを作成するには、次のリストのジャッジモデルのうち少なくとも 1 つに対するアクセス権が必要です。モデルに対するアクセス権の取得とリージョンの可用性の詳細については、「モデルへのアクセスをリクエストする」を参照してください。

Amazon Nova Pro – amazon.nova-pro-v1:0
Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude Sonnet 4 – anthropic.claude-sonnet-4-20250514-v1:0
Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Mistral Large – mistral.mistral-large-2402-v1:0

クロスリージョン推論プロファイルは、上記のモデルでサポートされています。詳細についてはサポートされているクロスリージョン推論プロファイルを参照してください。

サポートされている評価者モデル (カスタムメトリクス)

カスタムメトリクスとともに LLM-as-a-judge を使用する評価ジョブを作成するには、次のリストのジャッジモデルのうち少なくとも 1 つに対するアクセス権が必要です。

Mistral Large 24.02 – mistral.mistral-large-2402-v1:0
Mistral Large 24.07 – mistral.mistral-large-2407-v1:0
Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude Sonnet 4 – anthropic.claude-sonnet-4-20250514-v1:0
Anthropic Claude 3 Haiku 3 – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3 Haiku 3.5 – anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0
Amazon Nova Pro – amazon.nova-pro-v1:0

サポートされているジェネレーターモデル

Amazon Bedrock の次のモデルタイプを評価ジョブのジェネレーターモデルとして使用できます。Amazon Bedrock 以外のモデルから独自の推論レスポンスデータを取り込むこともできます。

基盤モデル – Bedrock でのモデルの使用
Amazon Bedrock Marketplace モデル – Amazon Bedrock Marketplace
カスタマイズされた基盤モデル – モデルをカスタマイズしてユースケースのパフォーマンスを向上させる
インポートされた基盤モデル – カスタムモデルのインポートを使用して、カスタマイズされたオープンソースモデルを Amazon Bedrock にインポートする
プロンプトルーター – Amazon Bedrock のインテリジェントなプロンプトルーティングを理解する
プロビジョンドスループットを購入したモデル – Amazon Bedrock のプロビジョンドスループットでモデル呼び出し容量を増やす

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

人間による評価のために作業チームを管理する

プロンプトデータセット