

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon Bedrock 中建立自動模型評估任務
<a name="evaluation-automatic"></a>

此主題提供建立自動模型評估任務的詳細指示。

**Topics**
+ [建立第一個自動模型評估任務之前的必要步驟](model-evaluation-type-automatic.md)
+ [Amazon Bedrock 中的模型評估任務類型](model-evaluation-tasks.md)
+ [在 Amazon Bedrock 中使用提示資料集進行模型評估](model-evaluation-prompt-datasets.md)
+ [在 Amazon Bedrock 中啟動自動模型評估任務](model-evaluation-jobs-management-create.md)
+ [列出 Amazon Bedrock 中的自動模型評估任務](model-evaluation-jobs-management-list.md)
+ [在 Amazon Bedrock 中停止模型評估任務](model-evaluation-jobs-management-stop.md)
+ [在 Amazon Bedrock 中刪除模型評估任務](model-evaluation-jobs-management-delete.md)

# 建立第一個自動模型評估任務之前的必要步驟
<a name="model-evaluation-type-automatic"></a>

自動模型評估任務需要存取下列服務層級資源。使用連結主題來進一步了解如何進行設定。

**跨來源資源分享 (CORS) 許可要求**  
所有主控台型模型評估任務都需要在模型評估任務中指定的任何 Amazon S3 儲存貯體上啟用跨來源資源分享 (CORS) 許可。如需進一步了解，請參閱 [S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可](model-evaluation-security-cors.md)

**啟動自動模型評估任務所需的服務層級資源**

1. 若要啟動自動模型評估任務，您需要存取至少一個 Amazon Bedrock 基礎模型。如需詳細資訊，請參閱 [存取 Amazon Bedrock 基礎模型](model-access.md)。

1. 若要建立自動模型評估任務，您需要存取 [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/) AWS Command Line Interface、 或支援的 AWS SDK。若要進一步了解必要的 IAM 動作和資源，請參閱 [建立自動模型評估任務所需的主控台許可](#base-for-automatic)。

1. 當模型評估任務開始時，會使用服務角色代表您執行動作。若要進一步了解必要的 IAM 動作和信任政策要求，請參閱 [自動模型評估任務的服務角色要求](automatic-service-roles.md)。

1. Amazon Simple Storage Service – 所有使用和產生的資料都必須放置在自動模型評估任務中位於相同 的 Amazon S3 儲存貯 AWS 區域 體中。

1. 跨來源資源分享 (CORS) – 使用 Amazon Bedrock 主控台建立的自動模型評估任務需要您在 S3 儲存貯體上指定 CORS 組態。如需詳細資訊，請參閱 [S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可](model-evaluation-security-cors.md)。

1. IAM 服務角色 – 若要執行自動模型評估任務，您必須建立服務角色。服務角色可讓 Amazon Bedrock 代表您在 AWS 帳戶中執行動作。如需詳細資訊，請參閱 [自動模型評估任務的服務角色要求](automatic-service-roles.md)。

## 建立自動模型評估任務所需的主控台許可
<a name="base-for-automatic"></a>

下列政策包含使用 Amazon Bedrock 主控台建立*自動*模型評估任務所需的 Amazon Bedrock 和 Amazon S3 中的最少一組 IAM 動作和資源。

在政策中，我們建議使用 IAM JSON 政策元素[資源](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html)來限制存取 IAM 使用者、群組或角色所需的模型和儲存貯體。

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Amazon Bedrock 中的模型評估任務類型
<a name="model-evaluation-tasks"></a>

在模型評估任務中，評估任務類型是您希望模型根據提示中的資訊執行的任務。您可以為每個模型評估任務選擇一種任務類型。

下表摘要說明自動模型評估、內建資料集和每個任務類型相關指標的可用任務類型。


**可用於 Amazon Bedrock 中自動模型評估任務的內建資料集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Amazon Bedrock 中模型評估的一般文字產生](model-evaluation-tasks-general-text.md)
+ [Amazon Bedrock 中模型評估的文字摘要](model-evaluation-tasks-text-summary.md)
+ [Amazon Bedrock 中模型評估的問答](model-evaluation-tasks-question-answer.md)
+ [Amazon Bedrock 中模型評估的文字分類](model-evaluation-text-classification.md)

# Amazon Bedrock 中模型評估的一般文字產生
<a name="model-evaluation-tasks-general-text"></a>

產生一般文字是包括聊天機器人之應用程式所使用的任務。模型對一般問題產生的回應，會受到用於訓練模型的文字中所包含的正確性、相關性和偏差的影響。

**重要**  
對於一般文字產生，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

下列內建資料集包含非常適合用於產生一般文字之任務的提示。

**開放式語言生成資料集中的偏差 (BOLD)**  
開放式語言生成資料集中的偏見 (BOLD)是一種資料集，可用於評估一般文字產生時的公平性，重點聚焦於五個領域：職業、性別、種族、宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

**RealToxicityPrompts**  
RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

**T-Rex：大規模對齊自然語言與知識庫三元組 (TREX)**  
TREX 是從維基百科中提取的知識庫三元組 (KBT) 組成的資料集。KBT 是自然語言處理 (NLP)和知識表示法中使用的一種資料結構類型。這種類型是由主詞、述詞和受詞組成，其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT)的範例子是「喬治·華盛頓曾經是美國總統」。主詞是「喬治·華盛頓」，述詞是「曾經是總統」，受詞是「美國」。

**WikiText2**  
WikiText2 是一種 HuggingFace 資料集，其包含產生一般文字時使用的提示。

下表摘要列出可用於自動模型評估任務的計算指標，以及建議的內建資料集。若要使用 AWS CLI 或支援的 AWS SDK 成功指定可用的內建資料集，請使用欄中的參數名稱，即*內建資料集 (API)*。


**可用的內建資料集，適用於 Amazon Bedrock 中一般文字的產生**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

若要深入了解如何計算每個內建資料集的運算指標，請參閱 [在 Amazon Bedrock 中檢閱模型評估任務報告和指標](model-evaluation-report.md)

# Amazon Bedrock 中模型評估的文字摘要
<a name="model-evaluation-tasks-text-summary"></a>

文字摘要用於建立新聞摘要、法律文件、學術論文、內容預覽和內容策展等任務。用於訓練模型的文字的雙關語、一致性、偏見和流暢性，以及資訊遺失、準確性、相關性或上下文內容不相符，都可能影響回應的品質。

**重要**  
對於文字摘要而言，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

下列內建資料集支援搭配使用任務摘要任務類型。

**Gigaword**  
Gigaword 資料集包含新聞文章標題。此資料集用於文字摘要任務。

下表摘要列出計算的指標，以及建議的內建資料集。若要使用 AWS CLI 或支援的 AWS SDK 成功指定可用的內建資料集，請使用欄中的參數名稱，即*內建資料集 (API)*。


**可用於 Amazon Bedrock中的文字摘要的內建資料集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

若要深入了解如何計算每個內建資料集的運算指標，請參閱 [在 Amazon Bedrock 中檢閱模型評估任務報告和指標](model-evaluation-report.md)

# Amazon Bedrock 中模型評估的問答
<a name="model-evaluation-tasks-question-answer"></a>

問題和答案用於任務，包括產生自動化服務台回應、資訊檢索和電子學習。如果用於訓練基礎模型的文字有問題，包括不完整或不準確的資料、嘲弄或諷刺，回應的品質可能會降低。

**重要**  
對於問答而言，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

建議搭配問答任務類型使用下列內建資料集。

**BoolQ**  
BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落，然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。

**一般問題**  
自然問題是一個資料集，其中包含提交給 Google 搜尋的真實使用者問題。

**TriviaQA**  
TriviaQA 是一個包含超過 65 萬個問題答案證據三元組的資料集。此資料集用於問答型任務。

下表摘要列出計算的指標，以及建議的內建資料集。若要使用 或支援的 AWS SDK 成功指定可用的內建資料集 AWS CLI，請使用 欄中的參數名稱，*即內建資料集 (API)*。


**適用於 Amazon Bedrock 中的問答任務類型的內建資料集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

若要深入了解如何計算每個內建資料集的運算指標，請參閱 [在 Amazon Bedrock 中檢閱模型評估任務報告和指標](model-evaluation-report.md)

# Amazon Bedrock 中模型評估的文字分類
<a name="model-evaluation-text-classification"></a>

文字分類用於將文字分類到預先定義的類別。使用文字分類的應用程式包括內容推薦、垃圾郵件偵測、語言識別和社交媒體上的趨勢分析。類別不平衡、不明確的資料、雜訊資料以及標籤中的偏差，是一些可能會導致文字分類錯誤的問題。

**重要**  
對於文字分類而言，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

建議搭配文字分類任務類型使用下列內建資料集。

**女性電子商務服裝評論**  
女性電子商務服裝評論是一個資料集，其中包含客戶撰寫的服裝評論。此資料集用於文字分類任務。

下表摘要列出計算的指標，以及建議的內建資料集。若要使用 AWS CLI 或支援的 AWS SDK 成功指定可用的內建資料集，請使用欄中的參數名稱，即*內建資料集 (API)*。




**Amazon Bedrock 中可用的內建資料集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-text-classification.html)

若要深入了解如何計算每個內建資料集的運算指標，請參閱 [在 Amazon Bedrock 中檢閱模型評估任務報告和指標](model-evaluation-report.md)

# 在 Amazon Bedrock 中使用提示資料集進行模型評估
<a name="model-evaluation-prompt-datasets"></a>

若要建立自動模型評估任務，您必須指定提示資料集。然後，提示會在推論期間與您選取要評估的模型搭配使用。Amazon Bedrock 提供可用於自動模型評估的內建資料集，或者您也可以使用自己的提示資料集。

請參閱以下各節，進一步了解可用的內建提示資料集，以及建立自訂提示資料集。

## 在 Amazon Bedrock 中使用內建提示資料集進行自動模型評估
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock 提供多個內建提示資料集，您可以在自動模型評估任務中使用這些資料集。每個內建資料集都以開放原始碼資料集為基礎。我們已經對每個開放原始碼資料集進行隨機縮小取樣，以僅包含 100 個提示。

當您建立自動模型評估任務並選擇**任務類型**時，Amazon Bedrock 會為您提供建議的指標清單。Amazon Bedrock 也會針對每個指標提供建議的內建資料集。若要進一步了解可用任務類型，請參閱 [Amazon Bedrock 中的模型評估任務類型](model-evaluation-tasks.md)。

**開放式語言生成資料集中的偏差 (BOLD)**  
開放式語言生成資料集中的偏見 (BOLD)是一種資料集，可用於評估一般文字產生時的公平性，重點聚焦於五個領域：職業、性別、種族、宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

**RealToxicityPrompts**  
RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

**T-Rex：大規模對齊自然語言與知識庫三元組 (TREX)**  
TREX 是從維基百科中提取的知識庫三元組 (KBT) 組成的資料集。KBT 是自然語言處理 (NLP)和知識表示法中使用的一種資料結構類型。這種類型是由主詞、述詞和受詞組成，其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT)的範例子是「喬治·華盛頓曾經是美國總統」。主詞是「喬治·華盛頓」，述詞是「曾經是總統」，受詞是「美國」。

**WikiText2**  
WikiText2 是一種 HuggingFace 資料集，其包含產生一般文字時使用的提示。

**Gigaword**  
Gigaword 資料集包含新聞文章標題。此資料集用於文字摘要任務。

**BoolQ**  
BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落，然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。

**一般問題 **  
自然問題是一個資料集，其中包含提交給 Google 搜尋的真實使用者問題。

**TriviaQA**  
TriviaQA 是一個包含超過 65 萬個問題答案證據三元組的資料集。此資料集用於問答型任務。

**女性電子商務服裝評論**  
女性電子商務服裝評論是一個資料集，其中包含客戶撰寫的服裝評論。此資料集用於文字分類任務。

在下表中，您可以看到可用的資料集分組任務類型的清單。若要進一步了解如何運算自動指標，請參閱 [在 Amazon Bedrock 中檢閱自動化模型評估任務的指標 (主控台)](model-evaluation-report-programmatic.md)。


**可用於 Amazon Bedrock 中自動模型評估任務的內建資料集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

若要進一步了解建立要求和自訂提示資料集的範例，請參閱 [在 Amazon Bedrock 中使用自訂提示資料集進行模型評估](#model-evaluation-prompt-datasets-custom)。

## 在 Amazon Bedrock 中使用自訂提示資料集進行模型評估
<a name="model-evaluation-prompt-datasets-custom"></a>

您可以在自動模型評估任務中建立自訂提示資料集。自訂提示資料集必須存放在 Amazon S3 中，並使用 JSON 行格式及使用 `.jsonl` 檔案副檔名。每行都必須是有效的 JSON 物件。每個自動評估任務在您的資料集中最多可有 1000 個提示。

對於使用主控台建立的任務，您必須更新 S3 儲存貯體上的跨來源資源分享 (CORS) 組態。若要進一步了解必要的 CORS 許可，請參閱 [S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可](model-evaluation-security-cors.md)。

您必須在自訂資料集中使用下列鍵值對。
+ `prompt` – 指示下列任務的輸入所需：
  + 在一般文字產生中，您的模型應該回應的提示。
  + 您的模型應該在問答任務類型中回答的問題。
  + 您的模型應該在文字摘要任務總結的文字。
  + 您的模型應在分類任務中分類的文字。
+ `referenceResponse` – 必須指出針對下列任務類型評估模型回應的基本事實：
  + 問答任務中所有提示的答案。
  + 所有準確性和強健性評估的答案。
+ `category` – (選用) 產生針對每個類別報告的評估分數。

例如，準確性需要提出問題和檢查模型回應的答案。在此範例中，使用索引鍵 `prompt` 與問題中包含的值，以及包含在答案中的值的索引鍵 `referenceResponse`，如下所示。

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

上一個範例是 JSON 行輸入檔案的單行，該檔案將以推論請求形式傳送至您的模型。在您的 JSON 行資料集中的每一個這類的記錄，模型會被調用。下列資料輸入範例適用於使用選擇性 `category` 索引鍵進行評估的問答任務。

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# 在 Amazon Bedrock 中啟動自動模型評估任務
<a name="model-evaluation-jobs-management-create"></a>

您可以使用 AWS 管理主控台 AWS CLI或支援的 AWS SDK 建立自動模型評估任務。在自動模型評估任務中，您選取的模型會使用來自支援內建資料集的提示，或您自己的自訂提示資料集來執行推論。每個任務還需要您選取任務類型。任務類型為您提供一些建議的指標和內建提示資料集。若要進一步了解可用任務類型和指標，請參閱 [Amazon Bedrock 中的模型評估任務類型](model-evaluation-tasks.md)。

下列範例說明如何使用 Amazon Bedrock 主控台 AWS CLI SDK for Python 建立自動模型評估任務。

所有自動模型評估任務都需要您建立 IAM 服務角色。若要進一步了解設定模型評估任務的 IAM 要求，請參閱 [模型評估任務的服務角色要求](model-evaluation-security-service-roles.md)。

下列範例示範如何建立自動模型評估任務。在 API 中，您也可以在 `modelIdentifier` 欄位中指定其 ARN，在任務中包含[推論設定檔](cross-region-inference.md)。

------
#### [ Amazon Bedrock console ]

使用下列程序以使用 Amazon Bedrock 主控台建立模型評估任務。若要成功完成此程序，請確定您的 IAM 使用者、群組或角色具有足夠的許可來存取主控台。如需詳細資訊，請參閱 [建立自動模型評估任務所需的主控台許可](model-evaluation-type-automatic.md#base-for-automatic)。

此外，您想要在模型評估任務中指定的任何自訂提示資料集，都必須將必要的 CORS 許可新增至 Amazon S3 儲存貯體。若要進一步了解新增必要的 CORS 許可，請參閱 [S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可](model-evaluation-security-cors.md)。

**若要建立自動模型評估任務**

1. 開啟 Amazon Bedrock 主控台：[https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. 在導覽窗格中，選擇**模型評估**。

1. 在**建立評估**卡的**自動**下方，選擇**建立自動評估**。

1. 在**建立自動評估**頁面上，提供下列資訊

   1. **評估名稱** — 為模型評估任務指定一個描述任務的名稱。此名稱會顯示在您的模型評估任務清單中。在 AWS 區域中，您帳戶內的這個名稱必須是唯一的。

   1. **描述** (選用) — 提供選擇性描述。

   1. **模型** — 選擇您要在模型評估任務中使用的模型。

      若要進一步了解 Amazon Bedrock 中的可用模型以及存取方法，請參閱 [存取 Amazon Bedrock 基礎模型](model-access.md)。

   1. (選用) 若要變更推論組態，請選擇**更新**。

      變更推論組態會變更所選模型產生的回應。若要進一步了解可用推論參數，請參閱 [基礎模型的推論請求參數和回應欄位](model-parameters.md)。

   1. **任務類型** — 選擇您希望模型在模型評估任務期間嘗試執行的任務類型。

   1. **指標和資料集** — 可用指標和內建提示資料集的清單會根據您選取的任務而變更。您可以從**可用的內建資料集**清單中做選擇，也可以選擇內建**使用您自己的提示資料集**。如果您選擇使用自己的提示資料集，請輸入提示資料集檔案的確切 S3 URI，或選擇**瀏覽 S3 **以搜尋提示資料集。

   1. **評估結果** — 指定要儲存結果的目錄的 S3 URI。選擇**瀏覽 S3** 以搜尋 Amazon S3 中的位置。

   1. (選用) 若要啟用客戶受管金鑰使用，請選擇**自訂加密設定 (進階)**。然後，提供您要使用的 AWS KMS 金鑰的 ARN。

   1. **Amazon Bedrock IAM 角色** — 選擇**使用現有角色**以使用已具備必要許可的 IAM 服務角色，或選擇**建立新角色**以建立新的 IAM 服務角色。

1. 然後，選擇 **Create** (建立)。

一旦狀態變更為**已完成**，您就可以檢視任務的報告卡。

------
#### [ SDK for Python ]

下列範例會使用 Python 建立自動評估任務。

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

在 中 AWS CLI，您可以使用 `help`命令來查看需要哪些參數，以及在 `create-evaluation-job`中指定哪些參數是選用的 AWS CLI。

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# 列出 Amazon Bedrock 中的自動模型評估任務
<a name="model-evaluation-jobs-management-list"></a>

您可以列出您已使用 AWS CLI 或支援的 AWS SDK 建立的目前自動模型評估任務。在 Amazon Bedrock 主控台中，您也可以檢視包含目前模型評估任務的資料表。

下列範例說明如何使用 AWS 管理主控台、AWS CLI 和適用於 Python 的 SDK 尋找模型評估任務。

------
#### [ Amazon Bedrock console ]

1. 開啟 Amazon Bedrock 主控台：[https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. 在導覽窗格中，選擇**模型評估**。

1. 在**模型評估任務**卡片中，您可以找到列出您已建立之模型評估任務的資料表。

------
#### [ AWS CLI ]

在 AWS CLI 中，您可以使用 `help` 命令來檢視必要參數，以及使用 `list-evaluation-jobs` 時哪些參數是選用的。

```
aws bedrock list-evaluation-jobs help
```

以下是使用 `list-evaluation-jobs` 並指定最多傳回 5 個任務的範例。根據預設，任務會從開始的時間以遞減順序傳回。

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

下列範例示範如何使用適用於 Python 的 AWS SDK 來尋找您先前建立的模型評估任務。

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# 在 Amazon Bedrock 中停止模型評估任務
<a name="model-evaluation-jobs-management-stop"></a>

您可以使用 AWS 管理主控台、AWS CLI 或支援的 AWS SDK 停止目前正在處理的模型評估任務。

下列範例說明如何使用 AWS 管理主控台、AWS CLI 和適用於 Python 的 SDK 停止模型評估任務。

------
#### [ Amazon Bedrock console ]

下列範例示範如何使用 AWS 管理主控台 停止模型評估任務

1. 開啟 Amazon Bedrock 主控台：[https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. 在導覽窗格中，選擇**模型評估**。

1. 在**模型評估任務**卡片中，您可以找到列出您已建立之模型評估任務的資料表。

1. 選取任務名稱旁的選項按鈕。

1. 然後，選擇**停止評估**。

------
#### [ SDK for Python ]

下列範例示範如何使用適用於 Python 的 SDK 停止模型評估任務

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

在 AWS CLI 中，您可以使用 `help` 命令來查看哪些參數是必要的，以及在 AWS CLI 中指定 `add-something` 時哪些參數是選用的。

```
aws bedrock create-evaluation-job help
```

下列範例示範如何使用 AWS CLI 停止模型評估任務

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# 在 Amazon Bedrock 中刪除模型評估任務
<a name="model-evaluation-jobs-management-delete"></a>

您可以使用 Amazon Bedrock 主控台，或使用 [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) 操作搭配 AWS CLI，或支援的 AWS SDK 來刪除模型評估任務。

在您刪除模型評估任務之前，任務的狀態必須為 `FAILED`、`COMPLETED` 或 `STOPPED`。您可以從 Amazon Bedrock 主控台，或呼叫 [ ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html)，以取得任務的目前狀態。如需詳細資訊，請參閱 [列出 Amazon Bedrock 中的自動模型評估任務列出在 Amazon Bedrock 中使用人力工作者的模型評估任務](model-evaluation-jobs-management-list.md)。

您可以使用主控台和 `BatchDeleteEvaluationJob` 操作一次刪除最多 25 個模型評估任務。如果您需要刪除更多任務，請重複主控台程序或 `BatchDeleteEvaluationJob` 呼叫 。

如果您使用 `BatchDeleteEvaluationJob` 操作刪除模型評估任務，則需要提供想要刪除之模型的 Amazon Resource Name (ARN)。如需取得模型 ARN 的詳細資訊，請參閱 [列出 Amazon Bedrock 中的自動模型評估任務列出在 Amazon Bedrock 中使用人力工作者的模型評估任務](model-evaluation-jobs-management-list.md)。

當您刪除模型評估任務時，Amazon Bedrock 和 Amazon SageMaker AI 中的所有資源都會移除。儲存在 Amazon S3 儲存貯體中的任何模型評估任務都會保持不變。此外，對於使用人力工作者的模型評估任務，刪除模型評估任務不會刪除您在 Amazon Cognito 或 SageMaker AI 中設定的人力資源或工作團隊。

使用下列各節來查看如何刪除模型評估任務的範例。

------
#### [ Amazon Bedrock console ]

使用下列程序以使用 Amazon Bedrock 主控台刪除模型評估任務。若要成功完成此程序，請確定您的 IAM 使用者、群組或角色具有足夠的許可來存取主控台。如需詳細資訊，請參閱 [建立自動模型評估任務所需的主控台許可](model-evaluation-type-automatic.md#base-for-automatic)。

**刪除多個模型評估任務。**

1. 開啟 Amazon Bedrock 主控台：[https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)

1. 在導覽窗格中，選擇**模型評估**。

1. 在**模型評估任務**卡片中，使用資料表尋找您要刪除的模型評估任務，並使用任務名稱旁的核取方塊選取它們。您最多可以選取 25 個任務。

1. 選擇**刪除**，刪除模型評估模型。

1. 如果您需要刪除更多模型評估任務，請重複步驟 3 和 4。

------
#### [ AWS CLI ]

在 AWS CLI 中，您可以使用 `help` 命令來檢視必要參數，以及使用 `batch-delete-evaluation-job` 時哪些參數是選用的。

```
aws bedrock batch-delete-evaluation-job help
```

以下是使用 `batch-delete-evaluation-job` 並指定刪除 2 個模型評估任務的範例。您可以使用 `job-identifiers` 參數，為要刪除的模型評估任務指定 ARNS 清單。在對 `batch-delete-evaluation-job` 的單一呼叫中，您最多可以刪除 25 個模型評估任務。如果您需要刪除更多任務，請進一步呼叫 `batch-delete-evaluation-job`。

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

提交後，您會取得以下回應。

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

下列範例示範如何使用適用於 Python 的 AWS SDK 來刪除模型評估任務。使用 `jobIdentifiers` 參數來指定您要刪除之模型評估任務的 ARNS 清單。在對 `BatchDeleteEvaluationJob` 的單一呼叫中，您最多可以刪除 25 個模型評估任務。如果您需要刪除更多任務，請進一步呼叫 `BatchDeleteEvaluationJob`。

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------