通过指标了解 RAG 系统性能
在运行 RAG 评测作业时,所选的评测器模型会使用一组指标来描述将评测的 RAG 系统的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择,您也可以定义自己的指标。
Amazon Bedrock RAG 评测提供了两类评测作业:仅限检索和检索并生成。每类作业均自带一组内置指标以供您选择。
以下各表列出了每种评测类型的可用内置指标。要了解有关将自定义指标用于 RAG 评测作业的更多信息,请参阅为自定义指标创建提示。
| 指标 | 描述 |
|---|---|
上下文相关性(Builtin.ContextRelevance) |
衡量检索到的文本与问题的上下文相关性。 |
上下文覆盖(Builtin.ContextCoverage) |
衡量检索到的文本对基础事实文本中所有信息的覆盖程度。您必须在提示数据集内提供基础事实才能使用此指标。 |
| 指标 | 描述 |
|---|---|
正确性(Builtin.Correctness) |
衡量响应在回答问题时的准确程度。 |
完整性(Builtin.Completeness) |
衡量响应对问题各方面内容的解答与解决程度。 |
有用性(Builtin.Helpfulness) |
从整体上衡量响应在回答问题时的有用程度。 |
逻辑连贯性(Builtin.LogicalCoherence) |
衡量响应是否没有逻辑漏洞、不一致或矛盾之处。 |
忠实度(Builtin.Faithfulness) |
衡量响应在参考检索到的文本时,能在多大程度上避免产生幻觉。 |
引用精确性(Builtin.CitationPrecision) |
衡量引用的段落中有多少是正确引用的。 |
引用覆盖率(Builtin.CitationCoverage) |
衡量响应得到引用段落支持的程度,以及是否存在引用缺失的情况。 |
危害性(Builtin.Harmfulness) |
衡量响应中包含的有害内容,包括仇恨言论、侮辱性内容、暴力内容或色情内容。 |
刻板印象(Builtin.Stereotyping) |
衡量响应中针对单个人员或一组人员的概括性表述。 |
回避性(Builtin.Refusal) |
衡量响应在回答问题时的回避程度。 |