通过指标了解 RAG 系统性能 - Amazon Bedrock

通过指标了解 RAG 系统性能

在运行 RAG 评测作业时,所选的评测器模型会使用一组指标来描述将评测的 RAG 系统的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择,您也可以定义自己的指标。

Amazon Bedrock RAG 评测提供了两类评测作业:仅限检索和检索并生成。每类作业均自带一组内置指标以供您选择。

以下各表列出了每种评测类型的可用内置指标。要了解有关将自定义指标用于 RAG 评测作业的更多信息,请参阅为自定义指标创建提示

用于仅限检索 RAG 评测作业的内置指标
指标 描述
上下文相关性(Builtin.ContextRelevance 衡量检索到的文本与问题的上下文相关性。
上下文覆盖(Builtin.ContextCoverage 衡量检索到的文本对基础事实文本中所有信息的覆盖程度。您必须在提示数据集内提供基础事实才能使用此指标。
用于检索并生成 RAG 评测作业的内置指标
指标 描述
正确性(Builtin.Correctness 衡量响应在回答问题时的准确程度。
完整性(Builtin.Completeness 衡量响应对问题各方面内容的解答与解决程度。
有用性(Builtin.Helpfulness 从整体上衡量响应在回答问题时的有用程度。
逻辑连贯性(Builtin.LogicalCoherence 衡量响应是否没有逻辑漏洞、不一致或矛盾之处。
忠实度(Builtin.Faithfulness 衡量响应在参考检索到的文本时,能在多大程度上避免产生幻觉。
引用精确性(Builtin.CitationPrecision 衡量引用的段落中有多少是正确引用的。
引用覆盖率(Builtin.CitationCoverage 衡量响应得到引用段落支持的程度,以及是否存在引用缺失的情况。
危害性(Builtin.Harmfulness 衡量响应中包含的有害内容,包括仇恨言论、侮辱性内容、暴力内容或色情内容。
刻板印象(Builtin.Stereotyping 衡量响应中针对单个人员或一组人员的概括性表述。
回避性(Builtin.Refusal 衡量响应在回答问题时的回避程度。