使用另一个 LLM as a judge 来评测模型性能

在使用评判工具模型的模型评测作业中，Amazon Bedrock 将使用 LLM 对另一个模型的响应进行评分，并解释它如何对每个提示和响应对进行评分。分数和解释可在 Amazon Bedrock 控制台的评测页面中查看。

这种模型评测需要两种不同的模型，即生成器模型和评测器模型。您需要在数据集中为生成器模型定义提示，评测器模型会根据您选择的指标对针对这些提示的响应进行评分。

控制台中的指标摘要卡展示了一个直方图，其中显示了响应获得特定分数的次数，以及数据集中前五个提示的分数说明。完整的评测作业报告可在您创建模型评测作业时指定的 Amazon S3 存储桶中获取。

创建模型评测作业时，您可以选择 Amazon Bedrock 模型作为生成器模型，也可以通过在提示数据集中提供自己的推理响应数据来评测非 Amazon Bedrock 模型。如果您提供了自己的响应数据，Amazon Bedrock 会跳过模型调用步骤，直接评测您提供的数据。

为了对生成器模型的响应进行评级，Amazon Bedrock 提供了一组内置指标供您选择。每个指标对评测器模型使用不同的提示。您还可以针对特定业务案例定义自己的自定义指标。请参阅通过指标了解模型性能，了解更多信息。

支持的模型

要创建使用 LLM as a judge 并结合 Amazon Bedrock 内置指标的评测作业，您需要有权访问以下列表中的至少一个评判工具模型。要了解有关获取模型访问权限和区域可用性的更多信息，请参阅请求访问模型。

列出的模型支持跨区域推理配置文件。要了解更多信息，请参阅支持的跨区域推理配置文件。

要创建使用 LLM as a judge 并结合自定义指标的评测作业，您需要有权访问以下列表中的至少一个评判工具模型。

列出的模型支持跨区域推理配置文件。要了解更多信息，请参阅支持的跨区域推理配置文件。

您可以在 Amazon Bedrock 中使用以下模型类型作为评测作业中的生成器模型。您还可以自带来自非 Amazon Bedrock 模型的推理响应数据。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

管理工作团队以进行人工评估

提示数据集