翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# RAG 評価ジョブのレポートとメトリクスを確認する
<a name="knowledge-base-evaluation-report"></a>

検索拡張生成 (RAG) 評価ジョブの結果はレポートに表示されます。レポートには、ナレッジベースのパフォーマンスや有効性を評価するのに役立つ主要なメトリクスやデータが表示されます。ナレッジベースの評価ジョブの結果は、Amazon Bedrock コンソール、またはジョブ作成時に指定した Amazon S3 バケットで確認できます。

単数または複数のカスタムメトリクスを使用した RAG 評価ジョブの場合、Amazon Bedrock はメトリクス定義を JSON ファイルとして、指定した出力 S3 バケットに保存します。これらのファイルにアクセスするには、`s3://S3-output-bucket-name/job-name/job-uuid/custom_metrics` に移動します。カスタムメトリクスの JSON 定義の形式については、「[カスタムメトリクスを作成するための JSON ファイルの作成](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-json)」を参照してください。

ナレッジベースの評価レポートとメトリクスを確認する方法については、以降のトピックを参照してください。

**Topics**
+ [LLMs を使用する RAG 評価のメトリクスを確認する (コンソール)](knowledge-base-eval-llm-results.md)

# LLMs を使用する RAG 評価のメトリクスを確認する (コンソール)
<a name="knowledge-base-eval-llm-results"></a>

Amazon Bedrock コンソールを使用して、RAG 評価ジョブのレポートに表示されるメトリクスを確認できます。

大規模言語モデル (LLMs) コンピューティング評価メトリクスを使用して、Amazon Bedrock ナレッジベースまたは外部 RAG ソースが情報を取得してレスポンスを生成する能力のパフォーマンスを評価する RAG 評価。

RAG 評価レポートカードには、取得のみ、またはレスポンス生成による取得の評価タイプに関連するメトリクスのメトリクスと内訳グラフが表示されます。さまざまなメトリクスは、さまざまな評価タイプに関連しています。各メトリクスの計算スコアは、プロンプトデータセット内のすべてのユーザークエリで取得されたテキストまたは生成されたレスポンスの平均スコアです。各メトリクスの計算スコアは 0～1 の値です。1 に近いほど、取得されたテキストまたはレスポンスにメトリクスの特性が多く表示されます。各メトリクスの内訳グラフはヒストグラムをプロットし、各スコア範囲内にあるクエリに対して取得されたテキストまたはレスポンスの数をカウントします。

たとえば、レスポンスの生成による取得を評価する評価ジョブを作成しました。コンソールレポートカードには、レスポンス*の完全性*の計算スコアが 0.82 と表示されます。*完全性*スコアは、生成されたレスポンスがユーザーの質問のあらゆる側面にどのように対処するかを測定します。これは、データセット内のすべてのプロンプトにわたる質問への応答の平均スコアとして計算されます。*完全性*のヒストグラムグラフは、ほとんどのレスポンス (最高バー) が完全性スコアの範囲 0.7～0.8 の間にあることを示しています。ただし、ナレッジベースはステレオタイプでも高いスコアを記録し、レスポンスで一般化されたステートメントが平均 0.94 で作成されます。ナレッジベースはほとんどの場合、かなり完全なレスポンスを生成できますが、それらのレスポンスには、個人またはグループに関する一般化された大量のステートメントが含まれます。

## LLMs を使用する RAG 評価のレポートカード
<a name="kb-eval-llm-report"></a>

LLMs を使用する RAG 評価ジョブの Amazon Bedrock コンソールでレポートカードを開くには、次の手順に従います。取得のみの評価タイプと、レスポンス生成による取得に関連する各メトリクスについては、以下の情報を参照してください。
+ にサインイン AWS マネジメントコンソール し、[https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/) で Amazon Bedrock コンソールを開きます。
+ ナビゲーションペインから**評価**を選択し、**ナレッジベースの評価**を選択します。
+ ナレッジベース評価ジョブの名前を選択します。ナレッジベース評価のメインページであるレポートカードが表示されます。
**注記**  
レポートカードを開くには、RAG 評価のステータスが準備完了または使用可能である必要があります。

## 取得のみのタイプ評価に関連するメトリクス
<a name="kb-eval-metrics-retrieve"></a>

ナレッジベースの関連性の高い情報を取得する能力の評価に関連する特定のメトリクスがあります。

**Contents**
+ [コンテキスト関連性](#kb-eval-metric-context-relevance)
+ [コンテキストカバレッジ (グラウンドトゥルースが必要)](#kb-eval-metric-context-coverage)

### コンテキスト関連性
<a name="kb-eval-metric-context-relevance"></a>

このメトリクスは、取得した情報の品質に関連しています。スコアは、データセット内のすべてのプロンプトで取得されたテキストチャンクの平均スコアです。コンテキストの関連性とは、取得したテキストチャンクが質問にコンテキスト的に関連していることを意味します。スコアが高いほど、情報はコンテキスト的に平均的に関連します。スコアが低いほど、情報はコンテキスト的に関連性が低くなります。

### コンテキストカバレッジ (グラウンドトゥルースが必要)
<a name="kb-eval-metric-context-coverage"></a>

このメトリクスは、取得した情報の品質に関連しています。スコアは、データセット内のすべてのプロンプトで取得されたテキストチャンクの平均スコアです。コンテキストカバレッジとは、取得したテキストチャンクがグラウンドトゥルーステキストで提供されるすべての情報をカバーしていることを意味します。スコアが高いほど、平均してコンテキストカバレッジが高くなります。スコアが低いほど、コンテキストカバレッジの平均は少なくなります。

## レスポンス生成タイプの評価による取得に関連するメトリクス
<a name="kb-eval-metrics-retrieve-generate"></a>

取得した情報に基づいて有用で適切なレスポンスを生成するナレッジベースの能力の評価に関連する特定のメトリクスがあります。

**Contents**
+ [正確性](#kb-eval-metric-correctness)
+ [Completeness](#kb-eval-metric-completeness)
+ [有用性](#kb-eval-metric-helpfulness)
+ [論理的一貫性](#kb-eval-metric-coherence)
+ [忠実性](#kb-eval-metric-faithfulness)
+ [引用精度](#kb-eval-metric-cit-precision)
+ [引用カバレッジ](#kb-eval-metric-cit-coverage)
+ [有害性](#kb-eval-metric-harmfulness)
+ [ステレオタイプ](#kb-eval-metric-stereotyping)
+ [拒否](#kb-eval-metric-refusal)

### 正確性
<a name="kb-eval-metric-correctness"></a>

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。正確性とは、質問に正確に答えることを意味します。スコアが高いほど、生成されたレスポンスは平均的に正しくなります。スコアが低いほど、生成されたレスポンスの平均精度は低くなります。

### Completeness
<a name="kb-eval-metric-completeness"></a>

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。完全性とは、質問のすべての側面に答えて解決することを意味します。スコアが高いほど、生成されたレスポンスは平均して完了します。スコアが低いほど、生成されたレスポンスは平均して完了しなくなります。

### 有用性
<a name="kb-eval-metric-helpfulness"></a>

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。有用性とは、質問に対する全体的に有用なレスポンスを意味します。スコアが高いほど、生成されたレスポンスは平均して役に立ちます。スコアが低いほど、生成されたレスポンスは平均して役に立ちません。

### 論理的一貫性
<a name="kb-eval-metric-coherence"></a>

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。論理的一貫性とは、レスポンスに論理的なギャップ、不整合、または矛盾がないことを意味します。スコアが高いほど、生成されたレスポンスの平均整合性が高くなります。スコアが低いほど、生成されたレスポンスの平均整合性は低くなります。

### 忠実性
<a name="kb-eval-metric-faithfulness"></a>

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。信憑性とは、取得したテキストチャンクを幻覚に陥らないようにすることです。スコアが高いほど、生成されたレスポンスは平均的に忠実になります。スコアが低いほど、生成されたレスポンスの平均は忠実度が低くなります。

### 引用精度
<a name="kb-eval-metric-cit-precision"></a>

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。引用精度は、正しく引用されている引用文章の数を示す尺度です。スコアが高いほど、応答の引用が正確である割合が平均して高くなります。スコアが低いほど、平均して正しい引用は少なくなります。

引用精度を使用する場合は、引用カバレッジも使用する必要があります。逆も同様です。引用カバレッジは、引用再現率とほぼ同じです。両方を併用すると、引用品質の全体像が得られます。

### 引用カバレッジ
<a name="kb-eval-metric-cit-coverage"></a>

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。引用カバレッジは、引用再現率とほぼ同じであり、レスポンスが引用された文章によってどの程度裏付けられているかを示す尺度です。スコアが高いほど、応答は平均してより適切に引用でサポートされます。スコアが低いほど、レスポンスは平均して引用によってサポートされなくなります。

引用カバレッジを使用する場合は、引用精度も使用する必要があります。逆も同様です。両方を併用すると、引用品質の全体像が得られます。

### 有害性
<a name="kb-eval-metric-harmfulness"></a>

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。有害性とは、憎悪的、侮辱的、または暴力的な発言をすることを意味します。スコアが高いほど、生成されたレスポンスの平均は有害になります。スコアが低いほど、生成されたレスポンスの平均的な有害性は低くなります。

### ステレオタイプ
<a name="kb-eval-metric-stereotyping"></a>

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。ステレオタイプ化とは、個人またはグループの一般化ステートメントを作成することを意味します。スコアが高いほど、生成されたレスポンスの平均のステレオタイプが高くなります。スコアが低いほど、生成されたレスポンスのステレオタイプは平均して少なくなります。フラット化と軽蔑の両方のステレオタイプが強く存在すると、スコアが高くなることに注意してください。

### 拒否
<a name="kb-eval-metric-refusal"></a>

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。拒否とは、質問に対する回避的なレスポンスを意味します。スコアが高いほど、生成されたレスポンスは平均的に回避的になります。スコアが低いほど、生成されたレスポンスの平均は回避性が低くなります。