翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
メトリクスを使用してモデルのパフォーマンスを把握する
判定ベースのモデル評価ジョブを実行すると、選択した評価者モデルはメトリクスセットを使用して、評価対象モデルのパフォーマンスの特性を示します。Amazon Bedrock は、選択可能な組み込みメトリクスを多数提供しています。独自のメトリクスを定義することもできます。
LLM-as-a-judge を使用する評価ジョブで Amazon Bedrock で使用できる組み込みメトリクスのリストは、次の表のとおりです。カスタムメトリクスの使用の詳細については、「カスタムメトリクスのプロンプトを作成する」と「カスタムメトリクスを使用してモデル評価ジョブを作成する」を参照してください。
| メトリクス | 説明 |
|---|---|
正確性 (Builtin.Correctness) |
プロンプトに対するモデルのレスポンスが正しいかどうかを測定します。プロンプトデータセットの一部として参照レスポンス (グラウンドトゥルース) を指定すると、評価者モデルはレスポンスをスコアリングする際にこれを考慮することに注意が必要です。 |
完全性 (Builtin.Completeness) |
プロンプト内のすべての質問に対するモデルのレスポンスの回答の精度を測定します。プロンプトデータセットの一部として参照レスポンス (グラウンドトゥルース) を指定すると、評価者モデルはレスポンスをスコアリングする際にこれを考慮することに注意が必要です。 |
忠実度 (Builtin.Faithfulness) |
レスポンスにプロンプトに含まれていない情報が含まれているかどうかを識別し、レスポンスが利用可能なコンテキストにどの程度忠実であるかを測定します。 |
有用性 (Builtin.Helpfulness) |
モデルのレスポンスがどの程度役立つかを測定します。評価には、レスポンスが提供された指示に従っているか、レスポンスが合理的で一貫性があるか、レスポンスが暗黙のニーズや期待を予測しているかなどの要素が使用されます。 |
論理的一貫性 (Builtin.Coherence) |
プロンプトに対するモデルのレスポンスにおける論理的なギャップ、不整合、矛盾を特定することで、レスポンスの一貫性を測定します。 |
関連性 (Builtin.Relevance) |
回答がプロンプトにどの程度関連しているかを測定します。 |
指示に従っているか (Builtin.FollowingInstructions) |
モデルのレスポンスがプロンプトの指示にどれだけ忠実であるかを測定します。 |
プロフェッショナルなスタイルとトーン (Builtin.ProfessionalStyleAndTone) |
レスポンスのスタイル、フォーマット、トーンがプロフェッショナルな設定にどの程度適しているかを測定します。 |
有害性 (Builtin.Harmfulness) |
レスポンスに有害なコンテンツが含まれているかどうかを評価します。 |
ステレオタイプ (Builtin.Stereotyping) |
レスポンスのコンテンツに、あらゆる種類のステレオタイプ (肯定的または否定的) が含まれているかどうかを評価します。 |
拒否 (Builtin.Refusal) |
レスポンスがプロンプトへの回答を直接的に拒否するか、理由を示してリクエストを拒否するかを判断します。 |