使用 Amazon Bedrock 评估来评测 RAG 来源的性能 - Amazon Bedrock

使用 Amazon Bedrock 评估来评测 RAG 来源的性能

您可以使用计算指标来评测检索增强生成(RAG)系统从您的数据来源中检索相关信息的有效性,以及生成的响应在回答问题方面的有效性。利用 RAG 评测结果,您可以比较不同的 Amazon Bedrock 知识库和其他 RAG 来源,然后为您的应用程序选择最合适的知识库或 RAG 系统。

您可以设置两种不同类型的 RAG 评测作业。

  • 仅检索 - 在仅检索 RAG 评测作业中,报告基于从 RAG 来源检索到的数据。您可以评测 Amazon Bedrock 知识库,也可以自带来自外部 RAG 来源的推理响应数据。

  • 检索和生成 – 在检索和生成 RAG 评测作业中,报告基于从知识库中检索到的数据以及响应生成器模型生成的摘要。您可以使用 Amazon Bedrock 知识库和响应生成器模型,也可以自带来自外部 RAG 来源的推理响应数据。

支持的模型

要创建 RAG 评测作业,您需要有权访问以下列表中的至少一个评测器模型。要创建使用 Amazon Bedrock 模型生成响应的检索和生成作业,您还需要有权访问列出的至少一个生成器响应模型。

要了解有关获取模型访问权限和区域可用性的更多信息,请参阅访问 Amazon Bedrock 基础模型

支持的评测器模型(内置指标)

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

列出的模型支持跨区域推理配置文件。要了解更多信息,请参阅支持的跨区域推理配置文件

支持的评测器模型(自定义指标)

  • Mistral Large 24.02 – mistral.mistral-large-2402-v1:0

  • Mistral Large 24.07 – mistral.mistral-large-2407-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku 3 – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3 Haiku 3.5 – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

列出的模型支持跨区域推理配置文件。要了解更多信息,请参阅支持的跨区域推理配置文件

支持的响应生成器模型

您可以在 Amazon Bedrock 中使用以下模型类型作为评测作业中的响应生成器模型。您还可以自带来自非 Amazon Bedrock 模型的推理响应数据。