使用内置指标创建模型评测作业 - Amazon Bedrock

使用内置指标创建模型评测作业

要按照以下说明操作来创建作业,您需要一个提示数据集。如果尚未创建提示数据集,请参阅为使用模型作为评判工具的模型评测作业创建提示数据集

Console
  1. 打开 Amazon Bedrock 控制台

  2. 在左侧窗格中的推理和评测下,选择评测

  3. 模型评测窗格中,选择创建,然后选择自动评测:模型作为评判工具

  4. 通过执行以下操作来输入您的模型评测详细信息:

    1. 模型评测详细信息窗格中的评测名称下,输入评测作业的名称。您选择的名称在您的 AWS 区域内必须是唯一的。

    2. (可选)在描述 - 可选下,输入评测作业的描述。

    3. 评测器模型下,选择选择模型,然后选择要执行评测的评判模型。

  5. 输入评测作业的推理来源。借助 Amazon Bedrock 模型评测,您既可以评测 Amazon Bedrock 模型的性能,又可以通过在提示数据集内提供自己的推理响应数据来评测其他模型的性能。要选择 Amazon Bedrock 模型,请执行以下操作:

    1. 推理来源窗格中的选择来源下,选择 Bedrock 模型

    2. 选择模型下,选择选择模型

    3. 在弹出窗口中,选择要评测的模型,然后选择应用

    4. (可选)要更改模型的推理参数,请为推理配置选择更新

  6. 要自带推理回复数据,请执行以下操作:

    1. 推理来源窗格中的选择来源下,选择自带推理回复

    2. 对于来源名称,输入用于创建响应数据的模型的名称。您输入的名称必须与提示数据集内的 modelIdentifier 参数相匹配。

  7. 通过在指标窗格中选择至少一个指标,选择您希望评测器模型用来对生成器模型响应评分的内置指标。

  8. 通过执行以下操作来定义数据集和结果的输入位置和输出位置:

    1. 数据集窗格中的选择提示数据集下,输入提示数据集的 Amazon S3 URI,或者选择浏览 S3 并选择您的文件。要查看模型作为评判工具的评测作业所需的提示数据集格式的定义,请参阅为使用模型作为评判工具的模型评测作业创建提示数据集

    2. 评估结果下,输入 Amazon Bedrock 的 Amazon S3 位置以保存您的结果,或者选择浏览 S3 以选择一个位置。

  9. Amazon Bedrock IAM 角色 - 权限下,选择创建和使用新的服务角色,让 Amazon Bedrock 为评测作业创建新的 IAM 角色,或者选择使用现有服务角色来选取现有 IAM 角色。有关创建和运行评测作业所需权限的列表,请参阅先决条件

  10. (可选)要使用您自己的 KMS 密钥来加密您的评测数据,请在 KMSkey - 可选下,选中自定义加密设置(高级),然后选择您的 AWS KMS 密钥。默认情况下,Amazon Bedrock 使用 AWS 拥有的 KMS 密钥对您的评测作业数据进行加密。

  11. 选择创建以完成评测作业的创建。

AWS CLI
  • 例 AWS CLI 命令和 JSON 文件,用于为 Amazon Bedrock 模型创建评测作业
    aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
    { "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "applicationType": "ModelEvaluation", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output_data/" } }
    例 AWS CLI 命令和 JSON 文件,用于创建您可在其中提供自己的推理响应数据的评测作业
    aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
    { "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "precomputedInferenceSource": { "inferenceSourceIdentifier": "my_model" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output/" } }