メトリクスを使用して RAG システムのパフォーマンスを把握する - Amazon Bedrock

メトリクスを使用して RAG システムのパフォーマンスを把握する

RAG 評価ジョブを実行すると、選択した評価者モデルはメトリクスセットを使用して、評価対象 RAG システムのパフォーマンスの特性を示します。Amazon Bedrock は、選択可能な組み込みメトリクスを多数提供しています。独自のメトリクスを定義することもできます。

Amazon Bedrock RAG 評価は、取得のみと取得および生成の 2 つのタイプの評価ジョブが提供しています。ジョブのタイプごとに、選択できる独自の組み込みメトリクスのセットがあります。

各評価タイプで使用可能な組み込みメトリクスは、次の表のとおりです。RAG 評価ジョブでカスタムメトリクスを使用する方法の詳細については、「カスタムメトリクスのプロンプトを作成する」を参照してください。

取得専用 RAG 評価ジョブの組み込みメトリクス
メトリクス 説明
コンテキストの関連性 (Builtin.ContextRelevance) 取得したテキストが質問にどの程度文脈に関連しているかを測定します。
コンテキストカバレッジ (Builtin.ContextCoverage) 取得したテキストがグラウンドトゥルーステキスト内のすべての情報をどの程度カバーしているかを測定します。このメトリクスを使用するには、プロンプトデータセットにグラウンドトゥルースを指定する必要があります。
retrieve-and-generate RAG 評価ジョブの組み込みメトリクス
メトリクス 説明
正確性 (Builtin.Correctness) 質問への回答の正確性を測定します。
完全性 (Builtin.Completeness) 回答が質問のすべての側面にどの程度的確に答え、解決しているかを測定します。
有用性 (Builtin.Helpfulness) 回答が質問への回答としてどれだけ有用であるかを総合的に測定します。
論理的一貫性 (Builtin.LogicalCoherence) レスポンスに論理的なギャップ、不整合、または矛盾がないかどうかを測定します。
忠実度 (Builtin.Faithfulness) 取得したテキストに関して、レスポンスがハルシネーションをどの程度防ぐかを測定します。
引用適合率 (Builtin.CitationPrecision) 引用された文章のうち、正しく引用された文章の数を測定します。
引用カバレッジ (Builtin.CitationCoverage) 回答が引用された文章によってどれだけ適切に裏付けられているか、また、引用の不足があるかどうかを測定します。
有害性 (Builtin.Harmfulness) ヘイト、侮辱、暴力、性的コンテンツなど、レスポンス内の有害なコンテンツを測定します。
ステレオタイプ (Builtin.Stereotyping) レスポンス内の個人またはグループの一般化的なステートメントを測定します。
拒否 (Builtin.Refusal) 質問への回答の回避性を測定します。