翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
組み込みメトリクスを使用してモデル評価ジョブを作成する
次の手順を使用してジョブを作成するには、プロンプトデータセットが必要です。まだ作成していない場合は、「ジャッジとしてのモデルを使用するモデル評価ジョブのプロンプトデータセットを作成する」を参照してください。
- Console
-
-
Amazon Bedrock コンソール
を開きます。 -
左側のペインの [推論と評価] で、[評価] を選択します。
-
[モデル評価] ペインで、[作成] を選択し、[自動: ジャッジとしてのモデル] を選択します。
-
以下を実行して、モデル評価の詳細を入力します。
-
[モデル評価の詳細] ペインの [評価名] に、評価ジョブの名前を入力します。選択する名前は、AWS リージョン内で一意でなければなりません。
-
オプションで、[説明 - オプション] に評価ジョブの説明を入力します。
-
[評価者モデル] で、[モデルを選択] を選択し、評価を実行するジャッジモデルを選択します。
-
-
評価ジョブの推論ソースを入力します。Amazon Bedrock モデル評価では、Amazon Bedrock モデルのパフォーマンスを評価することも、プロンプトデータセットに独自の推論レスポンスデータを指定して他のモデルのパフォーマンスを評価することもできます。Amazon Bedrock モデルを選択するには、次の手順を実行します。
-
[推論ソース] ペインの [ソースを選択] で、[Bedrock モデル] を選択します。
-
[モデルを選択] で、[モデルを選択] を選択します。
-
ポップアップで、評価するモデルを選択し、[適用] を選択します。
-
(オプション) モデルの推論パラメータを変更するには、[推論の設定] で [更新] を選択します。
-
-
独自の推論レスポンスデータを使用するには、以下を実行します。
-
[推論ソース] ペインの [ソースを選択] で、[独自の推論レスポンスを使用] を選択します。
-
[ソース名] に、応答データの作成に使用したモデルの名前を入力します。入力する名前は、プロンプトデータセットの
modelIdentifierパラメータと一致している必要があります。
-
-
[メトリクス] ペインで少なくとも 1 つのメトリクスを選択して、評価者モデルでジェネレーターモデルの応答をスコアリングする際の基準となる組み込みメトリクスを選択します。
-
以下を実行して、データセットの入力場所と結果の出力場所を定義します。
-
[データセット] ペインの [プロンプトデータセットを選択] で、プロンプトデータセットの Amazon S3 URI を入力するか、[S3 を参照] を選択してファイルを選択します。ジャッジとしてのモデル評価ジョブに必要なプロンプトデータセット形式の定義を確認するには、「ジャッジとしてのモデルを使用するモデル評価ジョブのプロンプトデータセットを作成する」を参照してください。
-
[評価結果] で、Amazon Bedrock が結果を保存する Amazon S3 の場所を入力するか、[S3 を参照] を選択して場所を選択します。
-
-
[Amazon Bedrock IAM ロール - アクセス許可] で、[新しいサービスロールを作成して使用] を選択して Amazon Bedrock で評価ジョブ用の新しい IAM ロールを作成するか、[既存のサービスロールを使用] を選択して既存の IAM ロールを選択します。評価ジョブを作成して実行するために必要なアクセス許可のリストについては、「前提条件」を参照してください。
-
(オプション) 独自の KMS キーを使用して評価データを暗号化するには、[KMS キー - オプション] で、[暗号化設定をカスタマイズ (高度)] のチェックボックスをオンにして、AWS KMS キーを選択します。デフォルトでは、Amazon Bedrock は評価ジョブデータを AWS 所有の KMS キーで暗号化します。
-
[作成] を選択して、評価ジョブの作成を完了します。
-
- AWS CLI
-
例 Amazon Bedrock モデルの評価ジョブを作成するための AWS CLI コマンドと JSON ファイル
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json{ "jobName":"model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "applicationType": "ModelEvaluation", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output_data/" } }例独自の推論レスポンスデータを指定する評価ジョブを作成するための AWS CLI コマンドと JSON ファイル
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json{ "jobName":"model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "precomputedInferenceSource": { "inferenceSourceIdentifier": "my_model" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output/" } }