翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
LLM-as-a-judge を使用するモデル評価ジョブを作成する
モデル評価ジョブはAWS マネジメントコンソール、、AWS CLI、またはサポートされている AWSSDK を使用して作成できます。
このタイプのジョブでは、評価者モデルへのアクセス権限が必要です。Amazon Bedrock モデルのパフォーマンスを評価する場合は、該当モデルへのアクセス権限も必要です。どちらのモデルも同じ AWS リージョンで利用できる必要があります。サポート対象のジェネレーターモデルと評価者モデルのリストについては、「サポートされているモデル」を参照してください。
前提条件
LLM-as-a-judge を使用する評価ジョブを作成するには、少なくとも 1 つの評価者モデルへのアクセスに加えて、特定の IAM サービスロールのアクセス許可も必要です。必要なアクションと信頼ポリシーの要件の詳細については、「判定モデルを使ったモデル評価ジョブを作成するために必要なサービスロールのアクセス許可」を参照してください。
ジョブを作成する際は、Amazon S3 バケット内のプロンプトデータセットと、結果を保存する出力バケットを指定します。S3 バケットに必要な CORS アクセス許可があることを確認するには、「S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可」を参照してください。
コンソールでジョブを作成するには、特定のアクションセットを実行し、必要なリソースにアクセスできるアクセス許可がコンソールに必要となります。次のポリシーは、コンソールでジョブを作成するために必要な、最小限の IAM アクセス許可のセットを定義しています。ポリシーでは、IAM JSON ポリシー要素である Resource を使用して、IAM ユーザー、グループ、またはロールに必要なモデルとバケットのみにアクセスを制限することをお勧めします。
IAM ポリシーは、ジェネレーターモデルと評価者モデルの両方へのアクセスを許可する必要があります。
注記
このサンプルポリシーでは、すべての Amazon Bedrock 基盤モデルに対するアクセス許可を付与します。本番環境では、最小権限の原則に従って、必要なモデルに対してのみアクセス許可を付与することをお勧めします。
Amazon Bedrock の組み込みメトリクスのみを使用して評価ジョブを作成することも、独自のカスタムメトリクスを使用するジョブを作成することもできます。モデル評価ジョブを作成する手順については、以降のセクションを参照してください。