评测 Amazon Bedrock 资源的性能
使用 Amazon Bedrock 评测来评测 Amazon Bedrock 模型和知识库的性能和有效性,以及 Amazon Bedrock 外部的模型和检索增强生成(RAG)来源的性能和有效性。Amazon Bedrock 可以计算性能指标,例如模型的语义稳健性,以及知识库在检索信息和生成响应方面的正确性。对于模型评测,您还可以利用人工团队对评测进行评级,并提供其意见。
自动评测(包括利用大语言模型(LLM)的评测)会生成计算得出的分数和指标,帮助您评测模型和知识库的有效性。人工评测使用人工团队来根据某些指标提供评分和偏好。
概述:自动模型评估作业
自动模型评估作业允许您快速评估模型执行任务的能力。您可以提供为特定用例量身定制的自定义提示数据集,也可以使用可用的内置数据集。
概述:使用人工的模型评估作业
使用人工的模型评估作业允许您将人工输入引入模型评估过程。人工可能来自公司员工,也可能来自行业内的一群主题专家。
概述:使用评判工具模型的模型评测作业
使用评判工具模型的模型评测作业可让您通过使用另一个 LLM 来快速评测模型的响应。第二个 LLM 会对响应进行评分并为每个响应提供解释。
使用大语言模型(LLM)的 RAG 评测概述
基于 LLM 的评测会计算知识库的性能指标。这些指标可以显示 RAG 来源或 Amazon Bedrock 知识库是否能够检索高度相关的信息并生成有用、适当的响应。您需要提供包含提示或用户查询的数据集,用于评测知识库如何检索信息并针对这些给定查询生成响应。该数据集还必须包含“Ground Truth”(即针对查询的预期检索文本和响应),让评测可以检查您的知识库是否与预期一致。
使用以下主题详细了解如何创建您的第一个模型评测作业。
模型评测作业支持使用以下类型的 Amazon Bedrock 基础模型:
-
基础模型
Amazon Bedrock Marketplace 模型
-
自定义基础模型
-
导入的基础模型
-
提示路由器
-
您已为其购买预调配吞吐量的模型