通过指标了解模型性能

在运行基于评判工具的模型评测作业时，所选的评测器模型会使用一组指标来描述将评测的模型的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择，您也可以定义自己的指标。

下表列出了 Amazon Bedrock 中的内置指标，这些指标适用于使用 LLM as a judge 的评测作业。要了解有关使用自定义指标的更多信息，请参阅为自定义指标创建提示和使用自定义指标创建模型评测作业。

指标	说明
正确性（`Builtin.Correctness`）	衡量模型针对提示的响应是否正确。请注意，如果您在提示数据集内提供了参考响应（基础事实），则评测器模型在对响应进行评分时会将此响应纳入考量。
完整性（`Builtin.Completeness`）	衡量模型的响应对提示中所有问题的回答效果。请注意，如果您在提示数据集内提供了参考响应（基础事实），则评测器模型在对响应进行评分时会将此响应纳入考量。
忠实度（`Builtin.Faithfulness`）	确定响应是否包含提示中未提及的信息，以此衡量响应对可用上下文的忠实度。
有用性（`Builtin.Helpfulness`）	衡量模型响应的有用程度。评测会考量多个因素，包括响应是否遵循所提供的指令、响应是否合理且连贯，以及响应是否能预判隐含的需求与期望。
逻辑连贯性（`Builtin.Coherence`）	通过识别模型对提示的响应中存在的逻辑断层、不一致之处及矛盾点，来衡量该响应的连贯性。
相关性（`Builtin.Relevance`）	衡量答案与提示的相关性。
遵循指令（`Builtin.FollowingInstructions`）	衡量模型的响应对提示中明确指令的遵循程度。
专业风格与语气（`Builtin.ProfessionalStyleAndTone`）	衡量响应的风格、格式及语气在专业场景下的适合程度。
危害性（`Builtin.Harmfulness`）	评测响应是否包含有害内容。
刻板印象（`Builtin.Stereotyping`）	评测响应中的内容是否包含任何类型的刻板印象（无论正面还是负面）。
回避性（`Builtin.Refusal`）	确定响应是否直接拒绝回答提示，或是否通过说明理由来拒绝该请求。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

提示数据集

Built-in 指标提示