

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Use prompt datasets for model evaluation in Amazon Bedrock
<a name="model-evaluation-prompt-datasets"></a>

自動モデル評価ジョブを作成するには、プロンプトデータセットを指定する必要があります。その後、プロンプトは、評価対象として選択したモデルによる推論中に使用されます。Amazon Bedrock には、自動モデル評価に使用できるデータセットが組み込まれています。また、独自のプロンプトデータセットを持ち込むこともできます。

以下のセクションでは、使用可能な組み込みプロンプトデータセットについて説明します。また、カスタムプロンプトデータセットの作成についても説明します。

## Use built-in prompt datasets for automatic model evaluation in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock には、自動モデル評価ジョブで使用できる複数の組み込みプロンプトデータセットが用意されています。各組み込みデータセットは、オープンソースのデータセットに基づいています。各オープンソースデータセットをランダムにダウンサンプリングして、100 個のプロンプトのみを含めます。

自動モデル評価ジョブを作成して **[タスクタイプ]** を選択すると、Amazon Bedrock は推奨メトリクスのリストを提供します。Amazon Bedrock は、各メトリクスについて、推奨される組み込みデータセットも提供します。使用可能なタスクタイプの詳細については、「[Model evaluation task types in Amazon Bedrock](model-evaluation-tasks.md)」を参照してください。

**オープンエンド型言語生成データセットのバイアス (BOLD)**  
オープンエンド型言語生成データセットのバイアス (BOLD) は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てて、一般的なテキスト生成における公平性を評価するデータセットです。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。

**RealToxicityPrompts**  
RealToxicityPrompts は有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。

**T-Rex: ナレッジベーストリプルを使用した自然言語の大規模調整 (TREX)**  
TREX は、ウィキペディアから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。KBT は自然言語処理 (NLP) や知識表現に使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例として、「ジョージ・ワシントンはアメリカ合衆国の大統領だった」などが挙げられます。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。

**WikiText2**  
WikiText2 は HuggingFace データセットで、一般的なテキスト生成に使われるプロンプトが含まれています。

**Gigaword**  
Gigaword データセットは、ニュース見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。

**BoolQ**  
BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

**Natural Questions **  
Natural Questions は、Google 検索に送信された実際のユーザーの質問で構成されるデータセットです。

**TriviaQA**  
TriviaQA は 65 万件を超える質問と回答のエビデンストリプルを含むデータセットです。このデータセットは質問回答タスクに使用されます。

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。

以下の表に、使用可能なデータセットをタスクタイプ別にグループ化したものを示します。自動メトリクスの計算方法の詳細については、「[Review metrics for an automated model evaluation job in Amazon Bedrock (console)](model-evaluation-report-programmatic.md)」を参照してください。


**Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

カスタムプロンプトデータセットの作成要件と例の詳細については、「[Use custom prompt dataset for model evaluation in Amazon Bedrock](#model-evaluation-prompt-datasets-custom)」を参照してください。

## Use custom prompt dataset for model evaluation in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-custom"></a>

自動モデル評価ジョブでは、カスタムプロンプトデータセットを使用できます。カスタムプロンプトデータセットは Amazon S3 に保存し、JSON Lines 形式と `.jsonl` ファイル拡張子を使用する必要があります。各行が有効な JSON オブジェクトである必要があります。自動評価ジョブ 1 件につき、データセットには最大 1,000 のプロンプトを設定できます。

コンソールを使用して作成されたジョブの場合、S3 バケットのクロスオリジンリソース共有 (CORS) 設定を更新する必要があります。必要な CORS アクセス許可の詳細については、「[S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可](model-evaluation-security-cors.md)」を参照してください。

カスタムデータセットでは、次のキーと値のペアを使用する必要があります。
+ `prompt` — 以下のタスクの入力を示すのに必要です。
  + 一般的なテキスト生成でモデルが応答すべきプロンプト。
  + 質問回答タスクタイプでモデルが回答すべき質問。
  + テキスト要約タスクでモデルが要約すべきテキスト。
  + 分類タスクでモデルが分類すべきテキスト。
+ `referenceResponse` — 以下のタスクタイプで、モデルを評価する基準となるグラウンドトゥルースレスポンスを示すのに必要です。
  + 質問回答タスクのすべてのプロンプトに対する回答。
  + すべての正解率と堅牢性の評価に対する答え。
+ `category` — (オプション) カテゴリごとに報告される評価スコアを生成します。

例えば、正解率については、モデルの応答を確認するためには質問と回答の両方が必要です。この例では、質問に含まれる値の入った `prompt` キーと、回答に含まれる値の入った `referenceResponse` キーを次のように使用します。

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

前の例は、推論リクエストとしてモデルに送信される JSON Lines 入力ファイルの 1 行です。このような JSON Lines データセット内のレコードごとにモデルが呼び出されます。以下のデータ入力例は、評価にオプションの `category` キーを使用する質問回答タスクのものです。

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```