本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
查看使用 LLMs (控制台)的 RAG 评估指标
您可以使用 Amazon Bedrock 控制台查看 RAG 评测作业报告中给出的指标。
使用大型语言模型 (LLMs) 的 RAG 评估计算评估指标,以评估 Amazon Bedrock 知识库或外部 RAG 来源检索信息和生成响应的表现。
在您的 RAG 评测报告卡中,您将看到与评测类型相关的指标以及指标细分图,评测类型可能是“仅检索”或“检索和回复生成”。不同的指标与不同的评估类型相关。每个指标的计算分数是指在提示数据集内,所有用户查询检索到的文本或所生成响应的平均分数。每个指标的计算分数是介于 0 和 1 之间的值。值越接近 1,该指标的特征出现在检索到的文本或响应中的次数就越多。每个指标的分解图绘制直方图,并对为查询取回且落在每个分数范围内的文本或响应计数。
例如,您创建了一个评测作业,用于对检索和回复生成进行评测。控制台报告卡显示,响应中完整性的计算分数为 0.82。完整性分数衡量生成的响应在解决用户问题的所有方面的表现如何。它是根据针对数据集内所有提示的问题,给出的回答的平均分数计算得出。完整性直方图显示,大多数响应(最高柱线)介于 0.7 到 0.8 的完整性分数范围之间。但是,知识库在刻板印象方面也得分很高,在响应中做出概括性陈述的平均分为 0.94。在大多数情况下,知识库可以生成相当完整的响应,但是这些响应包括大量关于个人或群体的概括性陈述。
使用的 RAG 评估报告卡 LLMs
按照步骤在 Amazon Bedrock 控制台中打开使用的 RAG 评估任务的成绩单。 LLMs请参阅以下信息,了解与评估类型相关的每个指标,评估类型包括“仅检索”和“检索和回复生成”。
-
登录 AWS 管理控制台 并打开 Amazon Bedrock 控制台,网址为https://console.aws.amazon.com/bedrock/
。 -
从导航窗格中选择评测,然后选择知识库评测。
-
选择知识库评测作业的名称。您将被引导到报告卡,这是知识库评测的主页。
注意
要打开报告卡,您的 RAG 评测状态必须为“就绪”或“可用”。
与“仅检索”评估类型相关的指标
一些指标与评估您的知识库检索高度相关信息的能力相关。
上下文相关性
该指标与检索到的信息的质量相关。其分数是数据集内对所有提示检索到的文本分块的平均分数。上下文相关性是指检索到的文本分块与问题具有背景相关性。分数越高,平均而言,信息的背景相关性就越密切。分数越低,平均而言,信息的背景相关性就越疏远。
上下文覆盖(需要基础事实)
该指标与检索到的信息的质量相关。其分数是数据集内对所有提示检索到的文本分块的平均分数。上下文覆盖是指检索到的文本块涵盖了基础事实文本中提供的所有信息。分数越高,平均而言,上下文覆盖率越高。分数越低,平均而言,上下文覆盖率越低。
与“检索和回复生成”评估类型相关的指标
一些指标与评估您的知识库根据检索到的信息生成有用且适当的响应的能力相关。
正确性
该指标与所生成响应的质量相关。其分数是数据集内对所有提示的响应的平均分数。正确性是指准确回答问题。分数越高,平均而言,生成的响应就越正确。分数越低,平均而言,生成的响应就越不正确。
完整性
该指标与所生成响应的质量相关。其分数是数据集内对所有提示的响应的平均分数。完整性是指回答并解决了问题的所有方面。分数越高,平均而言,生成的响应就越完整。分数越低,平均而言,生成的响应就越不完整。
有用性
该指标与所生成响应的质量相关。其分数是数据集内对所有提示的响应的平均分数。有用性是指对问题给出全面且有用的响应。分数越高,平均而言,生成的响应就越有用。分数越低,平均而言,生成的响应就越没用。
逻辑连贯性
该指标与所生成响应的质量相关。其分数是数据集内对所有提示的响应的平均分数。逻辑连贯性是指没有逻辑漏洞、不一致或矛盾之处。分数越高,平均而言,所生成响应的连贯性就越好。分数越低,平均而言,所生成响应的连贯性就越差。
忠实度
该指标与所生成响应的质量相关。其分数是数据集内对所有提示的响应的平均分数。忠实度是指避免对检索到的文本分块产生幻觉。分数越高,平均而言,所生成响应的忠实度就越高。分数越低,平均而言,所生成响应的忠实度就越低。
引用精确性
该指标与所生成响应的质量相关。其分数是数据集内对所有提示的响应的平均分数。引用精确性用于衡量正确引用的段落数。分数越高,平均而言,响应中正确的引用就越多。分数越低,平均而言,正确的引用就越少。
如果您选择使用引用精确性,那么您还应该使用引用覆盖率,反之亦然。引用覆盖率近似于引用查全率。将两者结合使用可以全面了解引用质量。
引用覆盖率
该指标与所生成响应的质量相关。其分数是数据集内对所有提示的响应的平均分数。引用覆盖率近似于引用查全率,用于衡量所引用段落对响应的支持程度如何。分数越高,平均而言,引用对响应的支持就越好。分数越低,平均而言,引用对响应的支持就越差。
如果您选择使用引用覆盖率,那么您还应该使用引用精确性,反之亦然。将两者结合使用可以全面了解引用质量。
危害性
该指标与所生成响应的适当性相关。其分数是数据集内对所有提示的响应的平均分数。危害性是指发表仇恨、侮辱或暴力言论。分数越高,平均而言,所生成响应的危害程度就越高。分数越低,平均而言,所生成响应的危害程度就越低。
刻板印象
该指标与所生成响应的适当性相关。其分数是数据集内对所有提示的响应的平均分数。刻板印象是指针对单个人员或一组人员给出概括性表述。分数越高,平均而言,所生成响应的刻板印象程度就越高。分数越低,平均而言,所生成响应的刻板印象程度就越低。请注意,如果同时存在大量赞美和贬低的刻板印象,分数会很高。
回避性
该指标与所生成响应的适当性相关。其分数是数据集内对所有提示的响应的平均分数。回避性是指对问题的规避性回答。分数越高,平均而言,所生成响应的规避性就越高。分数越低,平均而言,所生成响应的规避型就越低。