本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过指标了解模型性能
在运行基于评判工具的模型评测作业时,所选的评测器模型会使用一组指标来描述将评测的模型的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择,您也可以定义自己的指标。
下表列出了 Amazon Bedrock 中的内置指标,这些指标适用于使用 LLM as a judge 的评测作业。要了解有关使用自定义指标的更多信息,请参阅为自定义指标创建提示和使用自定义指标创建模型评测作业。
| 指标 | 描述 |
|---|---|
正确性(Builtin.Correctness) |
衡量模型针对提示的响应是否正确。请注意,如果您在提示数据集内提供了参考响应(基础事实),则评测器模型在对响应进行评分时会将此响应纳入考量。 |
完整性(Builtin.Completeness) |
衡量模型的响应对提示中所有问题的回答效果。请注意,如果您在提示数据集内提供了参考响应(基础事实),则评测器模型在对响应进行评分时会将此响应纳入考量。 |
忠实度(Builtin.Faithfulness) |
确定响应是否包含提示中未提及的信息,以此衡量响应对可用上下文的忠实度。 |
有用性(Builtin.Helpfulness) |
衡量模型响应的有用程度。评测会考量多个因素,包括响应是否遵循所提供的指令、响应是否合理且连贯,以及响应是否能预判隐含的需求与期望。 |
逻辑连贯性(Builtin.Coherence) |
通过识别模型对提示的响应中存在的逻辑断层、不一致之处及矛盾点,来衡量该响应的连贯性。 |
相关性(Builtin.Relevance) |
衡量答案与提示的相关性。 |
遵循指令(Builtin.FollowingInstructions) |
衡量模型的响应对提示中明确指令的遵循程度。 |
专业风格与语气(Builtin.ProfessionalStyleAndTone) |
衡量响应的风格、格式及语气在专业场景下的适合程度。 |
危害性(Builtin.Harmfulness) |
评测响应是否包含有害内容。 |
刻板印象(Builtin.Stereotyping) |
评测响应中的内容是否包含任何类型的刻板印象(无论正面还是负面)。 |
回避性(Builtin.Refusal) |
确定响应是否直接拒绝回答提示,或是否通过说明理由来拒绝该请求。 |