

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon Bedrock での自動モデル評価ジョブの作成
<a name="evaluation-automatic"></a>

このトピックでは、自動モデル評価ジョブを作成するための詳細な手順について説明します。

**Topics**
+ [最初の自動モデル評価ジョブを作成する前に必要な手順](model-evaluation-type-automatic.md)
+ [Model evaluation task types in Amazon Bedrock](model-evaluation-tasks.md)
+ [Use prompt datasets for model evaluation in Amazon Bedrock](model-evaluation-prompt-datasets.md)
+ [Amazon Bedrock で自動モデル評価ジョブを開始する](model-evaluation-jobs-management-create.md)
+ [Amazon Bedrock での自動モデル評価ジョブを一覧表示する](model-evaluation-jobs-management-list.md)
+ [Amazon Bedrock でモデル評価ジョブを停止する](model-evaluation-jobs-management-stop.md)
+ [Delete a model evaluation job in Amazon Bedrock](model-evaluation-jobs-management-delete.md)

# 最初の自動モデル評価ジョブを作成する前に必要な手順
<a name="model-evaluation-type-automatic"></a>

自動モデル評価ジョブでは、次のサービスレベルリソースにアクセスする必要があります。設定方法の詳細については、トピックのリンクを使用して確認してください。

**クロスオリジンリソース共有 (CORS) のアクセス許可の要件**  
コンソールベースのモデル評価ジョブを実行する場合は、モデル評価ジョブで指定されたすべての Amazon S3 バケットに対して、クロスオリジンリソース共有 (CORS) アクセス許可を必ず有効にする必要があります。詳細については、「[S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可](model-evaluation-security-cors.md)」を参照してください。

**自動モデル評価ジョブを開始するために必要なサービスレベルリソース**

1. 自動モデル評価ジョブを作成するには、1 つ以上の Amazon Bedrock 基盤モデルへのアクセス権が必要です。詳細については[Access Amazon Bedrock foundation models](model-access.md)を参照してください。

1. 自動モデル評価ジョブを作成するには、[https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)、 AWS Command Line Interface、またはサポートされている AWS SDK にアクセスする必要があります。必要な IAM アクションとリソースの詳細については、「[自動モデル評価ジョブの作成に必要なコンソールアクセス許可](#base-for-automatic)」を参照してください。

1. モデル評価ジョブが開始されると、サービスロールを使用して自動的にアクションが実行されます。必要な IAM アクションと信頼ポリシーの要件の詳細については、「[自動モデル評価ジョブのサービスロール要件](automatic-service-roles.md)」を参照してください。

1. Amazon Simple Storage Service – 使用および生成されたすべてのデータは、自動モデル評価ジョブ AWS リージョン で同じ にある Amazon S3 バケットに配置する必要があります。

1. クロスオリジンリソース共有 (CORS) – Amazon Bedrock コンソールを使用して作成された自動モデル評価ジョブでは、S3 バケットで CORS 設定を指定する必要があります。詳細については[S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可](model-evaluation-security-cors.md)を参照してください。

1. IAM サービスロール – 自動モデル評価ジョブを実行するには、サービスロールを作成する必要があります。サービスロールを使用すると、Amazon Bedrock はユーザーに代わって AWS アカウントでアクションを実行できます。詳細については[自動モデル評価ジョブのサービスロール要件](automatic-service-roles.md)を参照してください。

## 自動モデル評価ジョブの作成に必要なコンソールアクセス許可
<a name="base-for-automatic"></a>

以下のポリシーには、Amazon Bedrock コンソールを使用して、*自動*モデル評価ジョブを作成するために必要な Amazon Bedrock および Amazon S3 の最小限の IAM アクションとリソースが含まれています。

ポリシーでは、IAM JSON ポリシー要素である [Resource](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html) を使用して、IAM ユーザー、グループ、またはロールに必要なモデルとバケットのみにアクセスを制限することをお勧めします。

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Model evaluation task types in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

モデル評価ジョブでは、評価タスクタイプは、プロンプトの情報に基づいてモデルに実行させるタスクです。モデル評価ジョブごとに 1 つのタスクタイプを選択できます。

次の表は、自動モデル評価、組み込みデータセット、および各タスクタイプの関連メトリクスに使用できるタスクタイプをまとめたものです。


**Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [General text generation for model evaluation in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Text summarization for model evaluation in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Question and answer for model evaluation in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Text classification for model evaluation in Amazon Bedrock](model-evaluation-text-classification.md)

# General text generation for model evaluation in Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

一般的なテキスト生成は、チャットボットを含むアプリケーションで使用されるタスクです。一般的な質問に対してモデルが生成するレスポンスは、モデルのトレーニングに使用されるテキストに含まれる正確さ、関連性、バイアスの影響を受けます。

**重要**  
一般的なテキスト生成では、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

以下の組み込みデータセットには、一般的なテキスト生成タスクでの使用に適したプロンプトが含まれています。

**オープンエンド型言語生成データセットのバイアス (BOLD)**  
オープンエンド型言語生成データセットのバイアス (BOLD) は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てて、一般的なテキスト生成における公平性を評価するデータセットです。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。

**RealToxicityPrompts**  
RealToxicityPrompts は有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。

**T-Rex: ナレッジベーストリプルを使用した自然言語の大規模調整 (TREX)**  
TREX は、ウィキペディアから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。KBT は自然言語処理 (NLP) や知識表現に使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例として、「ジョージ・ワシントンはアメリカ合衆国の大統領だった」などが挙げられます。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。

**WikiText2**  
WikiText2 は HuggingFace データセットで、一般的なテキスト生成に使われるプロンプトが含まれています。

次の表は、計算済みのメトリクスと、自動モデル評価ジョブに使用できる推奨の組み込みデータセットをまとめたものです。AWS CLI または サポートされている AWS SDK を使用して利用可能な組み込みデータセットを正常に指定するには、*[組み込み データセット (API)]* 列のパラメータ名を使用します。


**Amazon Bedrock の一般的なテキスト生成に使用できる組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「[Review model evaluation job reports and metrics in Amazon Bedrock](model-evaluation-report.md)」を参照してください。

# Text summarization for model evaluation in Amazon Bedrock
<a name="model-evaluation-tasks-text-summary"></a>

テキスト要約は、ニュース、法的文書、学術論文、コンテンツプレビュー、コンテンツキュレーションの要約作成などのタスクに使用されます。モデルのトレーニングに使用されるテキストのあいまいさ、一貫性、バイアス、流暢さ、情報の損失、正解率、関連性、文脈の不一致は、レスポンスの質に影響を与える可能性があります。

**重要**  
テキスト要約の場合、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

タスク要約タスクタイプでは、以下の組み込みデータセットの使用がサポートされています。

**Gigaword**  
Gigaword データセットは、ニュース見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。

次の表は、計算済みのメトリクスと推奨の組み込みデータセットをまとめたものです。AWS CLI または サポートされている AWS SDK を使用して利用可能な組み込みデータセットを正常に指定するには、*[組み込み データセット (API)]* 列のパラメータ名を使用します。


**Amazon Bedrock のテキスト要約に使用できる組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「[Review model evaluation job reports and metrics in Amazon Bedrock](model-evaluation-report.md)」を参照してください。

# Question and answer for model evaluation in Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

質問回答は、ヘルプデスクでの自動レスポンスの生成、情報検索、e ラーニングなどのタスクに使用されます。基盤モデルのトレーニングに使用されるテキストに、不完全または不正確なデータ、嫌味や皮肉などの問題が含まれていると、回答の質が低下する可能性があります。

**重要**  
質問と回答の場合、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

質問と回答タスクタイプでは、以下の組み込みデータセットを使用することが推奨されます。

**BoolQ**  
BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

**Natural Questions**  
Natural Questions は、Google 検索に送信された実際のユーザーの質問で構成されるデータセットです。

**TriviaQA**  
TriviaQA は 65 万件を超える質問と回答のエビデンストリプルを含むデータセットです。このデータセットは質問回答タスクに使用されます。

次の表は、計算済みのメトリクスと推奨の組み込みデータセットをまとめたものです。またはサポートされている AWS SDK を使用して使用可能な組み込みデータセットを正常に指定するには AWS CLI、 列のパラメータ名*である組み込みデータセット (API) *を使用します。


**Amazon Bedrock の質問回答タスクタイプで使用可能な組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「[Review model evaluation job reports and metrics in Amazon Bedrock](model-evaluation-report.md)」を参照してください。

# Text classification for model evaluation in Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

テキスト分類は、テキストの定義済みカテゴリへの分類に使用されます。テキスト分類を使用するアプリケーションには、コンテンツの推奨、スパム検出、言語識別、ソーシャルメディアでのトレンド分析などがあります。不均衡なクラス、あいまいなデータ、ノイズの多いデータ、ラベル付けのバイアスは、テキスト分類でエラーの原因となる問題の一部です。

**重要**  
テキスト分類の場合、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

テキスト分類タスクタイプでは、以下の組み込みデータセットを使用することをお勧めします。

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。

次の表は、計算済みのメトリクスと推奨の組み込みデータセットをまとめたものです。AWS CLI または サポートされている AWS SDK を使用して利用可能な組み込みデータセットを正常に指定するには、*[組み込み データセット (API)]* 列のパラメータ名を使用します。




**Amazon Bedrock で使用できる組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-text-classification.html)

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「[Review model evaluation job reports and metrics in Amazon Bedrock](model-evaluation-report.md)」を参照してください。

# Use prompt datasets for model evaluation in Amazon Bedrock
<a name="model-evaluation-prompt-datasets"></a>

自動モデル評価ジョブを作成するには、プロンプトデータセットを指定する必要があります。その後、プロンプトは、評価対象として選択したモデルによる推論中に使用されます。Amazon Bedrock には、自動モデル評価に使用できるデータセットが組み込まれています。また、独自のプロンプトデータセットを持ち込むこともできます。

以下のセクションでは、使用可能な組み込みプロンプトデータセットについて説明します。また、カスタムプロンプトデータセットの作成についても説明します。

## Use built-in prompt datasets for automatic model evaluation in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock には、自動モデル評価ジョブで使用できる複数の組み込みプロンプトデータセットが用意されています。各組み込みデータセットは、オープンソースのデータセットに基づいています。各オープンソースデータセットをランダムにダウンサンプリングして、100 個のプロンプトのみを含めます。

自動モデル評価ジョブを作成して **[タスクタイプ]** を選択すると、Amazon Bedrock は推奨メトリクスのリストを提供します。Amazon Bedrock は、各メトリクスについて、推奨される組み込みデータセットも提供します。使用可能なタスクタイプの詳細については、「[Model evaluation task types in Amazon Bedrock](model-evaluation-tasks.md)」を参照してください。

**オープンエンド型言語生成データセットのバイアス (BOLD)**  
オープンエンド型言語生成データセットのバイアス (BOLD) は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てて、一般的なテキスト生成における公平性を評価するデータセットです。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。

**RealToxicityPrompts**  
RealToxicityPrompts は有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。

**T-Rex: ナレッジベーストリプルを使用した自然言語の大規模調整 (TREX)**  
TREX は、ウィキペディアから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。KBT は自然言語処理 (NLP) や知識表現に使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例として、「ジョージ・ワシントンはアメリカ合衆国の大統領だった」などが挙げられます。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。

**WikiText2**  
WikiText2 は HuggingFace データセットで、一般的なテキスト生成に使われるプロンプトが含まれています。

**Gigaword**  
Gigaword データセットは、ニュース見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。

**BoolQ**  
BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

**Natural Questions **  
Natural Questions は、Google 検索に送信された実際のユーザーの質問で構成されるデータセットです。

**TriviaQA**  
TriviaQA は 65 万件を超える質問と回答のエビデンストリプルを含むデータセットです。このデータセットは質問回答タスクに使用されます。

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。

以下の表に、使用可能なデータセットをタスクタイプ別にグループ化したものを示します。自動メトリクスの計算方法の詳細については、「[Review metrics for an automated model evaluation job in Amazon Bedrock (console)](model-evaluation-report-programmatic.md)」を参照してください。


**Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

カスタムプロンプトデータセットの作成要件と例の詳細については、「[Use custom prompt dataset for model evaluation in Amazon Bedrock](#model-evaluation-prompt-datasets-custom)」を参照してください。

## Use custom prompt dataset for model evaluation in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-custom"></a>

自動モデル評価ジョブでは、カスタムプロンプトデータセットを使用できます。カスタムプロンプトデータセットは Amazon S3 に保存し、JSON Lines 形式と `.jsonl` ファイル拡張子を使用する必要があります。各行が有効な JSON オブジェクトである必要があります。自動評価ジョブ 1 件につき、データセットには最大 1,000 のプロンプトを設定できます。

コンソールを使用して作成されたジョブの場合、S3 バケットのクロスオリジンリソース共有 (CORS) 設定を更新する必要があります。必要な CORS アクセス許可の詳細については、「[S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可](model-evaluation-security-cors.md)」を参照してください。

カスタムデータセットでは、次のキーと値のペアを使用する必要があります。
+ `prompt` — 以下のタスクの入力を示すのに必要です。
  + 一般的なテキスト生成でモデルが応答すべきプロンプト。
  + 質問回答タスクタイプでモデルが回答すべき質問。
  + テキスト要約タスクでモデルが要約すべきテキスト。
  + 分類タスクでモデルが分類すべきテキスト。
+ `referenceResponse` — 以下のタスクタイプで、モデルを評価する基準となるグラウンドトゥルースレスポンスを示すのに必要です。
  + 質問回答タスクのすべてのプロンプトに対する回答。
  + すべての正解率と堅牢性の評価に対する答え。
+ `category` — (オプション) カテゴリごとに報告される評価スコアを生成します。

例えば、正解率については、モデルの応答を確認するためには質問と回答の両方が必要です。この例では、質問に含まれる値の入った `prompt` キーと、回答に含まれる値の入った `referenceResponse` キーを次のように使用します。

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

前の例は、推論リクエストとしてモデルに送信される JSON Lines 入力ファイルの 1 行です。このような JSON Lines データセット内のレコードごとにモデルが呼び出されます。以下のデータ入力例は、評価にオプションの `category` キーを使用する質問回答タスクのものです。

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Amazon Bedrock で自動モデル評価ジョブを開始する
<a name="model-evaluation-jobs-management-create"></a>

自動モデル評価ジョブは AWS マネジメントコンソール、、 AWS CLI、またはサポートされている AWS SDK を使用して作成できます。自動モデル評価ジョブでは、選択したモデルは、サポートされている組み込みデータセットまたは独自のカスタムプロンプトデータセットからのプロンプトを使用して推論を実行します。各ジョブでは、タスクタイプも選択する必要があります。タスクタイプには、いくつかの推奨メトリクスと組み込みプロンプトデータセットが用意されています。使用可能なタスクタイプとメトリクスの詳細については、「[Model evaluation task types in Amazon Bedrock](model-evaluation-tasks.md)」を参照してください。

次の例は、Amazon Bedrock コンソール AWS CLI、 SDK for Python を使用して自動モデル評価ジョブを作成する方法を示しています。

すべての自動モデル評価ジョブでは、IAM サービスロールを作成する必要があります。モデル評価ジョブを設定するための IAM 要件の詳細については、「[モデル評価ジョブのサービスロール要件](model-evaluation-security-service-roles.md)」を参照してください。

次の例は、自動モデル評価ジョブを作成する方法を示しています。API では、[`modelIdentifier`] フィールドに ARN を指定することで、[推論プロファイル](cross-region-inference.md)をジョブに含めることもできます。

------
#### [ Amazon Bedrock console ]

Amazon Bedrock コンソールを使用してモデル評価ジョブを作成するには、次の手順を実行します。この手順を正常に完了するには、IAM ユーザー、グループ、またはロールにコンソールにアクセスするための十分なアクセス許可がが付与されていることを確認します。詳細については[自動モデル評価ジョブの作成に必要なコンソールアクセス許可](model-evaluation-type-automatic.md#base-for-automatic)を参照してください。

また、モデル評価ジョブで指定するカスタムプロンプトデータセットには、Amazon S3 バケットに必要な CORS アクセス許可を追加する必要があります。必要な CORS アクセス許可の追加に関しては、「[S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可](model-evaluation-security-cors.md)」を参照してください。

**自動モデル評価ジョブを作成する**

1. Amazon Bedrock コンソール ([https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)) を開きます。

1. ナビゲーションペインで、**[モデル評価]** を選択します。

1. **[評価を構築]** カードの **[自動]** で、**[自動評価を作成]** を選択します。

1. **[自動評価を作成]** ページに次の情報を入力します。

   1. **評価名** — モデル評価ジョブを説明する名前を付けます。この名前はモデル評価ジョブリストに表示されます。この名前は、 AWS リージョンのアカウントで一意である必要があります。

   1. **説明** (オプション) — オプションで説明を入力します。

   1. **モデル** — モデル評価ジョブで使用するモデルを選択します。

      Amazon Bedrock で使用可能なモデルとモデルへのアクセスの詳細については、「[Access Amazon Bedrock foundation models](model-access.md)」を参照してください。

   1. (オプション) 推論設定を変更するには、**[更新]** を選択します。

      推論設定を変更すると、選択したモデルによって生成されるレスポンスが変わります。使用可能な推論パラメータの詳細については、「[Inference request parameters and response fields for foundation models](model-parameters.md)」を参照してください。

   1. **タスクタイプ** — モデル評価ジョブ中にモデルに実行させるタスクタイプを選択します。

   1. **メトリクスとデータセット** — 使用可能なメトリクスと組み込みのプロンプトデータセットのリストは、選択したタスクに応じて変わります。**[使用可能な組み込みデータセット]** のリストから選択することも、**[独自のプロンプトデータセットを使用]** を選択することもできます。独自のプロンプトデータセットを使用する場合は、プロンプトデータセットファイルの正確な S3 URI を入力するか、**[S3 を参照]** を選択してプロンプトデータセットを検索します。

   1. **評価結果** — 結果を保存するディレクトリの S3 URI を指定します。Amazon S3 ロケーションを検索するには、**[S3 を参照]** を選択します。

   1. カスタマーマネージドキーを使用するには、**[暗号化設定をカスタマイズ (詳細)]** チェックボックスをオンにします。次に、使用する AWS KMS キーの ARN を指定します。

   1. **Amazon Bedrock IAM ロール** — **既存のロールを使用**して、必要なアクセス許可が既に付与されている IAM サービスロールを使用するか、**[新しいロールを作成]** を選択して新しい IAM サービスロールを作成します。

1. 続いて、[**作成**] を選択します。

状態が **[完了]** に変わったら、ジョブのレポートカードを表示できます。

------
#### [ SDK for Python ]

次の例では、Python を使用して自動評価ジョブを作成します。

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

では AWS CLI、 `help` コマンドを使用して、どのパラメータが必要で、どのパラメータがオプションであるかを確認できます`create-evaluation-job` AWS CLI。

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Amazon Bedrock での自動モデル評価ジョブを一覧表示する
<a name="model-evaluation-jobs-management-list"></a>

AWS CLI、またはサポートされている AWS SDK を使用して、作成済みのすべてのモデル評価ジョブを一覧表示できます。Amazon Bedrock コンソールでは、現在のモデル評価ジョブを含むテーブルを表示することもできます。

次の例は、AWS マネジメントコンソール、AWS CLI および SDK for Python を使用してモデル評価ジョブを検索する方法を示しています。

------
#### [ Amazon Bedrock console ]

1. Amazon Bedrock コンソール ([https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)) を開きます。

1. ナビゲーションペインで、**[モデル評価]** を選択します。

1. **[モデル評価ジョブ]** カードで、すでに作成済みのモデル評価ジョブが一覧されているテーブルを検索します。

------
#### [ AWS CLI ]

AWS CLI で、`help` コマンドを使用すると、`list-evaluation-jobs` を使用する際の必須パラメータとオプションのパラメータを表示できます。

```
aws bedrock list-evaluation-jobs help
```

以下は、`list-evaluation-jobs` を使用して最大 5 つのジョブを返すことを指定した例を示しています。デフォルトでは、ジョブは開始された時刻から降順で返されます。

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

次の例は、AWS SDK for Python を使用して以前作成したモデル評価ジョブを検索する方法を示しています。

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Amazon Bedrock でモデル評価ジョブを停止する
<a name="model-evaluation-jobs-management-stop"></a>

AWS マネジメントコンソール、AWS CLI またはサポートされている AWS SDK を使用すると、現在実行中のモデル評価ジョブを停止できます。

次の例は、AWS マネジメントコンソール、AWS CLI および SDK for Python を使用してモデル評価ジョブを停止する方法を示しています。

------
#### [ Amazon Bedrock console ]

次の例は、AWS マネジメントコンソール を使用してモデル評価を停止する方法を示しています。

1. Amazon Bedrock コンソール ([https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)) を開きます。

1. ナビゲーションペインで、**[モデル評価]** を選択します。

1. **[モデル評価ジョブ]** カードで、すでに作成済みのモデル評価ジョブが一覧されているテーブルを検索します。

1. ジョブ名の横にあるラジオボタンを選択します。

1. 次に、**[評価を停止]** を選択します。

------
#### [ SDK for Python ]

次の例は、SDK for Python を使用してモデル評価ジョブを停止する方法を示しています。

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

AWS CLI で、`help` コマンドを使用すると、AWS CLI で `add-something` を指定する際の必要なパラメータおよびオプションのパラメータを確認できます。

```
aws bedrock create-evaluation-job help
```

次の例は、AWS CLI を使用してモデル評価を停止する方法を示しています。

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Delete a model evaluation job in Amazon Bedrock
<a name="model-evaluation-jobs-management-delete"></a>

Amazon Bedrock、AWS CLI の [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) オペレーション、またはサポートされている AWS SDK を使用すると、モデル評価を削除できます。

モデル評価ジョブを削除する前に、ジョブの状態が、`FAILED`、`COMPLETED`、または `STOPPED` であることを確認します。ジョブの最新の状態は、Amazon Bedrock コンソールか、[ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html) を呼び出すことで確認できます。詳細については、「[Amazon Bedrock での自動モデル評価ジョブを一覧表示するAmazon Bedrock でヒューマンワーカーを使用するモデル評価ジョブを一覧表示する](model-evaluation-jobs-management-list.md)」を参照してください。

コンソールまたは、`BatchDeleteEvaluationJob` オペレーションを使用することで、1 度に最大 25 件のモデル評価を削除できます。さらにジョブを削除する必要がある場合は、コンソールの手順を繰り返すか、`BatchDeleteEvaluationJob` を呼び出します。

`BatchDeleteEvaluationJob` オペレーションを使用してモデル評価ジョブを削除する場合は、削除するモデルの Amazon リソースネーム (ARN) が必要です。モデルの ARN を取得する方法については、「[Amazon Bedrock での自動モデル評価ジョブを一覧表示するAmazon Bedrock でヒューマンワーカーを使用するモデル評価ジョブを一覧表示する](model-evaluation-jobs-management-list.md)」を参照してください。

モデル評価ジョブを削除すると、Amazon Bedrock と Amazon SageMaker AI のすべてのリソースが削除されます。Amazon S3 バケットに保存されたモデル評価ジョブは変更されません。また、ヒューマンワーカーを使用するモデル評価ジョブの場合、モデル評価ジョブを削除しても、Amazon Cognito や SageMaker AI で設定したワークフォースや作業チームは、削除されません。

以下のセクションでは、モデル評価ジョブを削除する方法の例を示しています。

------
#### [ Amazon Bedrock console ]

Amazon Bedrock コンソールで自動モデル評価ジョブを確認するには、次の手順に従います。この手順を正常に完了するには、IAM ユーザー、グループ、またはロールにコンソールにアクセスするための十分なアクセス許可がが付与されていることを確認します。詳細については[自動モデル評価ジョブの作成に必要なコンソールアクセス許可](model-evaluation-type-automatic.md#base-for-automatic)を参照してください。

**複数のモデル評価ジョブを削除するには。**

1. Amazon Bedrock コンソール ([https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)) を開きます。

1. ナビゲーションペインで、**[モデル評価]** を選択します。

1. **[モデル評価ジョブ]** カードで、テーブルを使用して、削除するモデル評価ジョブを検索し、削除するジョブ名の横にあるチェックボックスをオンにします。最大 25 ジョブまで選択できます。

1. **[削除]** を選択してモデル評価ジョブを削除します。

1. さらにモデル評価ジョブを削除する必要がある場合は、ステップ 3 と 4 を繰り返します。

------
#### [ AWS CLI ]

AWS CLI では、`help` コマンドを使用して、 パラメータが必要であり、`batch-delete-evaluation-job` を使用する際にどのパラメータがオプションであるかを表示できます。

```
aws bedrock batch-delete-evaluation-job help
```

以下は、`batch-delete-evaluation-job` を使用して、2 つのモデル評価ジョブを削除するように指定した例です。`job-identifiers` パラメータを使用して、削除するモデル評価ジョブの ARNS リストを指定します。`batch-delete-evaluation-job` への 1 回の呼び出しで、最大 25 個のモデル評価ジョブを削除できます。さらにジョブを削除する必要がある場合は、`batch-delete-evaluation-job` にさらに呼び出します。

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

送信すると、次のレスポンスが表示されます。

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

次の例は、AWS SDK for Python を使用して、モデル評価ジョブを削除する方法を示しています。`jobIdentifiers` パラメータを使用して、削除するモデル評価ジョブの ARNS リストを指定します。`BatchDeleteEvaluationJob` への 1 回の呼び出しで、最大 25 個のモデル評価ジョブを削除できます。さらにジョブを削除する必要がある場合は、`BatchDeleteEvaluationJob` にさらに呼び出します。

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------