LLM-as-a-judge を使用するモデル評価ジョブを作成する

モデル評価ジョブはAWS マネジメントコンソール、、AWS CLI、またはサポートされている AWSSDK を使用して作成できます。

このタイプのジョブでは、評価者モデルへのアクセス権限が必要です。Amazon Bedrock モデルのパフォーマンスを評価する場合は、該当モデルへのアクセス権限も必要です。どちらのモデルも同じ AWS リージョンで利用できる必要があります。サポート対象のジェネレーターモデルと評価者モデルのリストについては、「サポートされているモデル」を参照してください。

前提条件

LLM-as-a-judge を使用する評価ジョブを作成するには、少なくとも 1 つの評価者モデルへのアクセスに加えて、特定の IAM サービスロールのアクセス許可も必要です。必要なアクションと信頼ポリシーの要件の詳細については、「判定モデルを使ったモデル評価ジョブを作成するために必要なサービスロールのアクセス許可」を参照してください。

ジョブを作成する際は、Amazon S3 バケット内のプロンプトデータセットと、結果を保存する出力バケットを指定します。S3 バケットに必要な CORS アクセス許可があることを確認するには、「S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可」を参照してください。

コンソールでジョブを作成するには、特定のアクションセットを実行し、必要なリソースにアクセスできるアクセス許可がコンソールに必要となります。次のポリシーは、コンソールでジョブを作成するために必要な、最小限の IAM アクセス許可のセットを定義しています。ポリシーでは、IAM JSON ポリシー要素である Resource を使用して、IAM ユーザー、グループ、またはロールに必要なモデルとバケットのみにアクセスを制限することをお勧めします。

IAM ポリシーは、ジェネレーターモデルと評価者モデルの両方へのアクセスを許可する必要があります。

注記

このサンプルポリシーでは、すべての Amazon Bedrock 基盤モデルに対するアクセス許可を付与します。本番環境では、最小権限の原則に従って、必要なモデルに対してのみアクセス許可を付与することをお勧めします。

Amazon Bedrock の組み込みメトリクスのみを使用して評価ジョブを作成することも、独自のカスタムメトリクスを使用するジョブを作成することもできます。モデル評価ジョブを作成する手順については、以降のセクションを参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

カスタムメトリクスのプロンプト

組み込みメトリクスを使用してジョブを作成する