

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon Bedrock 中创建自动模型评测作业
<a name="evaluation-automatic"></a>

本主题提供了创建自动模型评测作业的详细指导。

**Topics**
+ [创建第一个自动模型评测作业之前需要执行的步骤](model-evaluation-type-automatic.md)
+ [Amazon Bedrock 中的模型评测任务类型](model-evaluation-tasks.md)
+ [在 Amazon Bedrock 中针对模型评测使用提示数据集](model-evaluation-prompt-datasets.md)
+ [在 Amazon Bedrock 中启动自动模型评测作业](model-evaluation-jobs-management-create.md)
+ [在 Amazon Bedrock 中列出自动模型评测作业](model-evaluation-jobs-management-list.md)
+ [在 Amazon Bedrock 中停止模型评测作业](model-evaluation-jobs-management-stop.md)
+ [在 Amazon Bedrock 中删除模型评测作业](model-evaluation-jobs-management-delete.md)

# 创建第一个自动模型评测作业之前需要执行的步骤
<a name="model-evaluation-type-automatic"></a>

自动模型评测作业需要对以下服务级别资源的访问权限。参阅链接的主题，了解有关设置的更多信息。

**跨源资源共享（CORS）权限要求**  
所有基于控制台的模型评测作业都需要在模型评测作业中指定的任何 Amazon S3 存储桶上启用跨源资源共享（CORS）权限。要了解更多信息，请参阅 [必需的 S3 存储桶的跨源资源共享（CORS）权限](model-evaluation-security-cors.md)。

**启动自动模型评测作业所需的服务级别资源**

1. 要启动自动模型评测作业，您需要获得对至少一个 Amazon Bedrock 模型的访问权限。要了解更多信息，请参阅[访问 Amazon Bedrock 基础模型](model-access.md)。

1. 要创建自动模型评估任务，您需要访问[https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/) AWS Command Line Interface、或支持的 AWS SDK。要了解有关所需的 IAM 操作和资源的更多信息，请参阅[创建自动模型评测作业所需的控制台权限](#base-for-automatic)。

1. 在模型评测作业启动时，可使用服务角色代表您执行操作。要了解有关所需的 IAM 操作和信任策略要求的更多信息，请参阅[自动模型评估作业的服务角色要求](automatic-service-roles.md)。

1. Amazon Simple Storage Service — 使用和生成的所有数据都必须放在自动模型评估任务 AWS 区域 中相同的 Amazon S3 存储桶中。

1. 跨源资源共享（CORS）– 使用 Amazon Bedrock 控制台创建的自动模型评测作业要求您在 S3 存储桶上指定 CORS 配置。要了解更多信息，请参阅[必需的 S3 存储桶的跨源资源共享（CORS）权限](model-evaluation-security-cors.md)。

1. IAM 服务角色 – 要运行自动模型评测作业，您必须创建服务角色。服务角色允许 Amazon Bedrock 在您的 AWS 账户中代表您执行操作。要了解更多信息，请参阅[自动模型评估作业的服务角色要求](automatic-service-roles.md)。

## 创建自动模型评测作业所需的控制台权限
<a name="base-for-automatic"></a>

以下策略包含使用 Amazon Bedrock 控制台创建*自动*模型评测作业所需的最少 Amazon Bedrock 和 Amazon S3 IAM 操作和资源集。

在该策略中，我们建议使用 IAM JSON 策略元素 [Resource](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html)，将访问权限限制为仅能访问 IAM 用户、组或角色所需的模型和存储桶。

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Amazon Bedrock 中的模型评测任务类型
<a name="model-evaluation-tasks"></a>

在模型评测作业中，评测任务类型是指您希望模型根据提示中的信息执行的任务。您可以为每个模型评估作业选择一种任务类型。

下表汇总了自动模型评测的可用任务类型、内置数据集以及每种任务类型的相关指标。


**Amazon Bedrock 中可用于自动模型评测作业的内置数据集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [在 Amazon Bedrock 中用于模型评测的一般文本生成](model-evaluation-tasks-general-text.md)
+ [Amazon Bedrock 中用于模型评测的文本摘要](model-evaluation-tasks-text-summary.md)
+ [Amazon Bedrock 中用于模型评测的问答](model-evaluation-tasks-question-answer.md)
+ [Amazon Bedrock 中用于模型评测的文本分类](model-evaluation-text-classification.md)

# 在 Amazon Bedrock 中用于模型评测的一般文本生成
<a name="model-evaluation-tasks-general-text"></a>

一般文本生成是一种任务，由包含聊天机器人的应用程序使用。模型针对一般性问题生成的响应受用于训练模型的文本的正确性、相关性和偏差的影响。

**重要**  
对于一般文本生成，存在一个已知的系统问题，该问题会影响 Cohere 模型成功完成毒性评测。

以下内置数据集包含非常适合在一般文本生成任务中使用的提示。

**开放式语言生成数据集中的偏差 (BOLD)**  
开放式语言生成数据集中的偏差 (BOLD) 是一个数据集，用于评估一般文本生成中的公正性，重点关注五个领域：职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。

**RealToxicityPrompts**  
RealToxicityPromps 是一个用于评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。

**T-Rex：自然语言与知识库三元组的大规模比对 (TREX)**  
TREX 是由从维基百科提取的知识库三元组 (KBT) 组成的数据集。KBT 是一种用于自然语言处理 (NLP) 和知识表示的数据结构，由主语、谓词和宾语组成，其中主语和宾语通过某种关系联系起来。例如，“乔治·华盛顿曾任美国总统”就是一个知识库三元组 (KBT)。主语是“乔治·华盛顿”，谓语是“曾任”，宾语是“美国总统”。

**WikiText2**  
WikiText2 是一个 HuggingFace 数据集，包含一般文本生成中使用的提示。

下表汇总了可用于自动模型评估作业的计算指标和推荐的内置数据集。要使用 AWS CLI 或支持的 AWS SDK 成功指定可用的内置数据集，请使用*内置数据集（API）*列中的参数名称。


**Amazon Bedrock 中可用于生成一般文本的内置数据集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

要详细了解每个内置数据集的计算指标的计算方法，请参阅 [在 Amazon Bedrock 中查看模型评测作业报告和指标](model-evaluation-report.md)。

# Amazon Bedrock 中用于模型评测的文本摘要
<a name="model-evaluation-tasks-text-summary"></a>

文本摘要用于新闻摘要、法律文件、学术论文、内容预览和内容策划的创建等任务。用于训练模型的文本的模糊性、连贯性、偏差和流畅性以及信息丢失、准确性、相关性或上下文不匹配等问题都会影响响应的质量。

**重要**  
对于文本摘要，存在一个已知的系统问题，该问题会影响 Cohere 模型成功完成毒性评测。

支持将以下内置数据集用于文本摘要任务类型。

**Gigaword**  
Gigaword 数据集由新闻文章标题组成。此数据集用于文本摘要任务。

下表汇总了计算指标和推荐的内置数据集。要使用 AWS CLI 或支持的 AWS SDK 成功指定可用的内置数据集，请使用*内置数据集（API）*列中的参数名称。


**Amazon Bedrock 中可用于文本摘要的内置数据集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

要详细了解每个内置数据集的计算指标的计算方法，请参阅 [在 Amazon Bedrock 中查看模型评测作业报告和指标](model-evaluation-report.md)。

# Amazon Bedrock 中用于模型评测的问答
<a name="model-evaluation-tasks-question-answer"></a>

问答用于自动帮助中心响应、信息检索和在线学习的生成等任务。如果用于训练根基模型的文本包含数据不完整或不准确、讽刺或反讽等问题，响应的质量可能会受到影响。

**重要**  
对于问答，存在一个已知的系统问题，该问题会影响 Cohere 模型成功完成毒性评测。

建议将以下内置数据集用于问答任务类型。

**BoolQ**  
BoolQ 是一个由 yes/no 问答对组成的数据集。提示包含一小段内容，然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。

**自然问题**  
自然问题是由提交给 Google 搜索的真实用户问题组成的数据集。

**TriviaQA**  
TriviaQA 是一个包含超过 65 万个的数据集。question-answer-evidence-triples此数据集用于问答任务。

下表汇总了计算指标和推荐的内置数据集。要使用或支持的 AWS SDK 成功指定可用的内置数据集 AWS CLI，请使用*内置数据集 (API)* 列中的参数名称。


**Amazon Bedrock 中可用于问答任务类型的内置数据集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

要详细了解每个内置数据集的计算指标的计算方法，请参阅 [在 Amazon Bedrock 中查看模型评测作业报告和指标](model-evaluation-report.md)。

# Amazon Bedrock 中用于模型评测的文本分类
<a name="model-evaluation-text-classification"></a>

文本分类用于将文本划分到预定义的各个类别中。使用文本分类的应用程序包括社交媒体上的内容推荐、垃圾邮件检测、语言识别和趋势分析。不平衡的类、歧义数据、噪声数据和标注中的偏差是一些可能导致文本分类错误的问题。

**重要**  
对于文本分类，存在一个已知的系统问题，该问题会影响 Cohere 模型成功完成毒性评测。

建议将以下内置数据集用于文本分类任务类型。

**女性电子商务服装评论**  
女性电子商务服装评论是一个包含客户撰写的服装评论的数据集。此数据集用于文本分类任务。

下表汇总了计算指标和推荐的内置数据集。要使用 AWS CLI 或支持的 AWS SDK 成功指定可用的内置数据集，请使用*内置数据集（API）*列中的参数名称。




**Amazon Bedrock 中的可用内置数据集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/model-evaluation-text-classification.html)

要详细了解每个内置数据集的计算指标的计算方法，请参阅 [在 Amazon Bedrock 中查看模型评测作业报告和指标](model-evaluation-report.md)。

# 在 Amazon Bedrock 中针对模型评测使用提示数据集
<a name="model-evaluation-prompt-datasets"></a>

要创建自动模型评测作业，您必须指定提示数据集。此类提示随后会在推理过程中用于所选的待评测模型。Amazon Bedrock 提供了可用于自动模型评估的内置数据集，您也可以自带提示数据集。

通过以下部分，详细了解可用的内置提示数据集和创建自定义提示数据集。

## 在 Amazon Bedrock 中针对自动模型评测使用内置提示数据集
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock 提供了多个内置提示数据集，您可以在自动模型评估作业中使用这些数据集。每个内置数据集都基于一个开源数据集。我们对每个开源数据集都进行了随机下采样，仅包含 100 个提示。

创建自动模型评估作业并选择**任务类型**时，Amazon Bedrock 会为您提供推荐指标列表。Amazon Bedrock 还为每个指标提供了推荐的内置数据集。要了解有关可用任务类型的更多信息，请参阅 [Amazon Bedrock 中的模型评测任务类型](model-evaluation-tasks.md)。

**开放式语言生成数据集中的偏差 (BOLD)**  
开放式语言生成数据集中的偏差 (BOLD) 是一个数据集，用于评估一般文本生成中的公正性，重点关注五个领域：职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。

**RealToxicityPrompts**  
RealToxicityPrompts 是评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。

**T-Rex：自然语言与知识库三元组的大规模比对 (TREX)**  
TREX 是由从维基百科提取的知识库三元组 (KBTs) 组成的数据集。 KBTs 是自然语言处理 (NLP) 和知识表示中使用的一种数据结构。由主语、谓词和宾语组成，其中主语和宾语通过某种关系联系起来。例如，“乔治·华盛顿曾任美国总统”就是一个知识库三元组 (KBT)。主语是“乔治·华盛顿”，谓语是“曾任”，宾语是“美国总统”。

**WikiText2**  
WikiText2 是一个包含一般文本生成中使用的提示 HuggingFace 的数据集。

**Gigaword**  
Gigaword 数据集由新闻文章标题组成。此数据集用于文本摘要任务。

**BoolQ**  
BoolQ 是一个由 yes/no 问答对组成的数据集。提示包含一小段内容，然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。

**自然问题 **  
自然问题是由提交给 Google 搜索的真实用户问题组成的数据集。

**TriviaQA**  
TriviaQA 是一个包含超过 65 万个的数据集。question-answer-evidence-triples此数据集用于问答任务。

**女性电子商务服装评论**  
女性电子商务服装评论是一个包含客户撰写的服装评论的数据集。此数据集用于文本分类任务。

下表中显示了按任务类型分组的可用数据集列表。要了解有关如何计算自动指标的更多信息，请参阅 [在 Amazon Bedrock（控制台）中查看自动模型评测作业的指标](model-evaluation-report-programmatic.md)。


**Amazon Bedrock 中可用于自动模型评估作业的内置数据集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

要了解有关创建要求和自定义提示数据集示例的更多信息，请参阅 [在 Amazon Bedrock 中针对模型评测使用自定义提示数据集](#model-evaluation-prompt-datasets-custom)。

## 在 Amazon Bedrock 中针对模型评测使用自定义提示数据集
<a name="model-evaluation-prompt-datasets-custom"></a>

您可以在自动模型评测作业中创建自定义提示数据集。自定义提示数据集必须存储在 Amazon S3 中，使用 JSON 行格式和 `.jsonl` 文件扩展名。每行必须是有效的 JSON 对象。每个自动评估作业的数据集中最多可以有 1000 条提示。

对于使用控制台创建的作业，您必须更新 S3 存储桶上的跨源资源共享（CORS）配置。要了解有关所需 CORS 权限的更多信息，请参阅 [必需的 S3 存储桶的跨源资源共享（CORS）权限](model-evaluation-security-cors.md)。

您必须在自定义数据集内使用以下键值对。
+ `prompt` – 必要键，用于指明以下任务的输入：
  + 模型在一般文本生成中应当响应的提示。
  + 模型在问答任务类型中应当回答的问题。
  + 模型在文本摘要任务中应当总结的文本。
  + 模型在分类任务中应当分类的文本。
+ `referenceResponse` – 必要键，用于指明在针对以下任务类型评估模型时，所依据的真实响应：
  + 问答任务中所有提示的答案。
  + 所有准确性和稳健性评估的答案。
+ `category`–（可选）生成每个类别报告的评估分数。

举个例子，准确性既要求提供要问的问题，又要求提供检查模型响应所依据的答案。因此，使用键 `prompt` 和问题中包含的值，使用键 `referenceResponse` 和答案中包含的值，如下所示。

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

前面的示例是某个 JSON 行输入文件中的一行，该文件将作为推理请求发送给您的模型。系统将为您的 JSON 行数据集中的每条此类记录调用模型。以下数据输入示例用于问答任务，该任务使用可选的 `category` 键进行评估。

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# 在 Amazon Bedrock 中启动自动模型评测作业
<a name="model-evaluation-jobs-management-create"></a>

您可以使用 AWS 管理控制台、 AWS CLI或支持的 AWS SDK 创建自动模型评估任务。在自动模型评测作业中，所选模型会使用来自支持的内置数据集或您自己的自定义提示数据集的提示来执行推理。每个作业还会要求您选择一个任务类型。任务类型会为您提供一些推荐的指标和内置提示数据集。要了解有关可用的任务类型和指标的更多信息，请参阅 [Amazon Bedrock 中的模型评测任务类型](model-evaluation-tasks.md)。

以下示例向您展示了如何使用 Amazon Bedrock 控制台、 AWS CLI适用于 Python 的软件开发工具包创建自动模型评估任务。

所有自动模型评测作业都需要您创建 IAM 服务角色。要详细了解设置模型评测作业的 IAM 要求，请参阅[模型评估作业的服务角色要求](model-evaluation-security-service-roles.md)。

以下示例展示了如何创建自动模型评测作业。在 API 中，您还可以通过在 `modelIdentifier` 字段中指定[推理配置文件](cross-region-inference.md)的 ARN 来在作业中包含推理配置文件。

------
#### [ Amazon Bedrock console ]

按照以下流程使用 Amazon Bedrock 控制台创建模型评测作业。要成功完成此流程，请确保您的 IAM 用户、组或角色拥有足够的权限来访问控制台。要了解更多信息，请参阅[创建自动模型评测作业所需的控制台权限](model-evaluation-type-automatic.md#base-for-automatic)。

此外，您要在模型评测作业中指定的任何自定义提示数据集都必须将所需的 CORS 权限添加到 Amazon S3 存储桶。要详细了解如何添加所需的 CORS 权限，请参阅[必需的 S3 存储桶的跨源资源共享（CORS）权限](model-evaluation-security-cors.md)。

**创建自动模型评测作业**

1. 打开 Amazon Bedrock 控制台：[https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. 在导航窗格中，选择**模型评估**。

1. 在**建立评估**卡的**自动**下，选择**创建自动评估**。

1. 在**创建自动评估**页面上，提供以下信息：

   1. **评估名称** — 为模型评估作业指定一个可描述该作业的名称。此名称将显示在模型评估作业列表中。此名称在您的 AWS 区域的账户中必须是唯一的。

   1. **描述**（可选）— 提供可选描述。

   1. **模型** — 选择要在模型评估作业中使用的模型。

      要详细了解 Amazon Bedrock 中可用的模型以及如何访问这些模型，请参阅[访问 Amazon Bedrock 基础模型](model-access.md)。

   1. （可选）要更改推理配置，请选择**更新**。

      更改推理配置会更改所选模型生成的响应。要了解有关可用推理参数的更多信息，请参阅 [基础模型的推理请求参数和响应字段](model-parameters.md)。

   1. **任务类型** — 选择您希望模型在模型评估作业期间尝试执行的任务类型。

   1. **指标和数据集** — 可用指标列表和内置提示数据集会根据您选择的任务而变化。您可以从**可用的内置数据集**列表中进行选择，也可以选择**使用您自己的提示数据集**。如果您选择使用自己的提示数据集，请输入提示数据集文件的确切 S3 URI，或者选择**浏览 S3** 搜索提示数据集。

   1. **评估结果** – 指定您希望将结果保存到的目录的 S3 URI。选择**浏览 S3** 搜索 Amazon S3 中的位置。

   1. （可选）要使用客户自主管理型密钥，请选择**自定义加密设置（高级）**。然后，提供您要使用的 AWS KMS 密钥的 ARN。

   1. **Amazon Bedrock IAM 角色** – 选择**使用现有角色**以使用已拥有所需权限的 IAM 服务角色，或者选择**创建新角色**来创建新的 IAM 服务角色。

1. 然后选择 **Create**。

状态变为**已完成**后，您可以查看作业的报告卡。

------
#### [ SDK for Python ]

以下示例使用 Python 创建了一个自动评测作业。

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

在中 AWS CLI，您可以使用`help`命令来查看哪些参数是必需的，以及哪些参数`create-evaluation-job`在中指定时是可选的 AWS CLI。

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# 在 Amazon Bedrock 中列出自动模型评测作业
<a name="model-evaluation-jobs-management-list"></a>

您可以列出已使用 AWS CLI 或支持的 AWS SDK 创建的当前自动模型评测作业。在 Amazon Bedrock 控制台中，您还可以查看包含当前模型评测作业的表。

以下示例展示了如何使用 AWS 管理控制台、AWS CLI 和适用于 Python 的 SDK 查找模型评测作业。

------
#### [ Amazon Bedrock console ]

1. 通过以下网址打开 Amazon Bedrock 控制台：[https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. 在导航窗格中，选择**模型评测**。

1. 在**模型评测作业**卡中，您可以找到一个表，其中列出了您已创建的模型评测作业。

------
#### [ AWS CLI ]

在 AWS CLI 中，您可以使用 `help` 命令来查看在使用 `list-evaluation-jobs` 时哪些参数是必需的，以及哪些参数是可选的。

```
aws bedrock list-evaluation-jobs help
```

以下是使用 `list-evaluation-jobs` 并指定最多返回 5 个作业的示例。默认情况下，作业根据它们开始时的时间按降序返回。

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

以下示例展示了如何使用适用于 Python 的 AWS SDK 来查找您之前创建的模型评测作业。

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# 在 Amazon Bedrock 中停止模型评测作业
<a name="model-evaluation-jobs-management-stop"></a>

您可以使用 AWS 管理控制台、AWS CLI 或支持的 AWS SDK 停止当前正在处理的模型评测作业。

以下示例展示了如何使用 AWS 管理控制台、AWS CLI 和适用于 Python 的 SDK 停止模型评测作业

------
#### [ Amazon Bedrock console ]

以下示例展示了如何使用 AWS 管理控制台停止模型评测作业

1. 通过以下网址打开 Amazon Bedrock 控制台：[https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. 在导航窗格中，选择**模型评测**。

1. 在**模型评测作业**卡中，您可以找到一个表，其中列出了您已创建的模型评测作业。

1. 选择作业名称旁的单选按钮。

1. 然后，选择**停止评测**。

------
#### [ SDK for Python ]

以下示例展示了如何使用适用于 Python 的 SDK 停止模型评测作业

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

在 AWS CLI 中，您可以使用 `help` 命令来查看在 AWS CLI 中指定 `add-something` 时哪些参数是必需的，以及哪些参数是可选的。

```
aws bedrock create-evaluation-job help
```

以下示例展示了如何使用 AWS CLI 停止模型评测作业

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# 在 Amazon Bedrock 中删除模型评测作业
<a name="model-evaluation-jobs-management-delete"></a>

您可以使用 Amazon Bedrock 控制台删除模型评测作业，也可以通过 AWS CLI 或支持的 AWS SDK 使用 [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) 操作删除模型评测作业。

在删除模型评测作业之前，作业的状态必须为 `FAILED`、`COMPLETED` 或 `STOPPED`。您可以通过 Amazon Bedrock 控制台或调用 [ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html) 获取作业的当前状态。有关更多信息，请参阅 [在 Amazon Bedrock 中列出自动模型评测作业在 Amazon Bedrock 中列出使用人工的模型评测作业](model-evaluation-jobs-management-list.md)。

通过控制台和 `BatchDeleteEvaluationJob` 操作，您一次最多可以删除 25 个模型评测作业。如果您需要删除更多作业，请重复执行控制台流程或 `BatchDeleteEvaluationJob` 调用。

如果您通过 `BatchDeleteEvaluationJob` 操作删除模型评测作业，则需要要删除的模型的 Amazon 资源名称（ARN）。有关获取模型 ARN 的信息，请参阅[在 Amazon Bedrock 中列出自动模型评测作业在 Amazon Bedrock 中列出使用人工的模型评测作业](model-evaluation-jobs-management-list.md)。

当您删除模型评测作业时，Amazon Bedrock 和 Amazon SageMaker AI 中的所有资源都将被移除。保存在 Amazon S3 存储桶中的任何模型评测作业则保持不变。此外，对于使用人工工作人员的模型评测作业，删除模型评测作业不会删除您在 Amazon Cognito 或 SageMaker AI 中配置的员工或工作团队。

查看以下各个部分，了解如何删除模型评测作业的示例。

------
#### [ Amazon Bedrock console ]

按照以下流程使用 Amazon Bedrock 控制台删除模型评测作业。要成功完成此流程，请确保您的 IAM 用户、组或角色拥有足够的权限来访问控制台。要了解更多信息，请参阅[创建自动模型评测作业所需的控制台权限](model-evaluation-type-automatic.md#base-for-automatic)。

**删除多个模型评测作业。**

1. 通过以下网址打开 Amazon Bedrock 控制台：[https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)

1. 在导航窗格中，选择**模型评测**。

1. 在**模型评测作业**卡中，使用表查找要删除的模型评测作业，然后使用作业名称旁边的复选框将其选中。最多可以选择 25 个作业。

1. 选择**删除**以删除模型评测作业。

1. 如果您需要删除更多模型评测作业，请重复步骤 3 和 4。

------
#### [ AWS CLI ]

在 AWS CLI 中，您可以使用 `help` 命令来查看在使用 `batch-delete-evaluation-job` 时哪些参数是必需的，以及哪些参数是可选的。

```
aws bedrock batch-delete-evaluation-job help
```

以下是使用 `batch-delete-evaluation-job` 并指定删除 2 个模型评测作业的示例。您可以使用 `job-identifiers` 参数指定要删除的模型评测作业的 ARN 的列表。在单个 `batch-delete-evaluation-job` 调用中，您最多可以删除 25 个模型评测作业。如果您需要删除更多作业，请执行更多 `batch-delete-evaluation-job` 调用。

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

提交后，您将收到以下响应。

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

以下示例展示了如何使用适用于 Python 的 AWS SDK 删除模型评测作业。使用 `jobIdentifiers` 参数指定要删除的模型评测作业的 ARN 列表。在单个 `BatchDeleteEvaluationJob` 调用中，您最多可以删除 25 个模型评测作业。如果您需要删除更多作业，请执行更多 `BatchDeleteEvaluationJob` 调用。

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------