通过指标了解模型性能 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过指标了解模型性能

在运行基于评判工具的模型评测作业时,所选的评测器模型会使用一组指标来描述将评测的模型的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择,您也可以定义自己的指标。

下表列出了 Amazon Bedrock 中的内置指标,这些指标适用于使用 LLM as a judge 的评测作业。要了解有关使用自定义指标的更多信息,请参阅为自定义指标创建提示使用自定义指标创建模型评测作业

指标 描述
正确性(Builtin.Correctness 衡量模型针对提示的响应是否正确。请注意,如果您在提示数据集内提供了参考响应(基础事实),则评测器模型在对响应进行评分时会将此响应纳入考量。
完整性(Builtin.Completeness 衡量模型的响应对提示中所有问题的回答效果。请注意,如果您在提示数据集内提供了参考响应(基础事实),则评测器模型在对响应进行评分时会将此响应纳入考量。
忠实度(Builtin.Faithfulness 确定响应是否包含提示中未提及的信息,以此衡量响应对可用上下文的忠实度。
有用性(Builtin.Helpfulness 衡量模型响应的有用程度。评测会考量多个因素,包括响应是否遵循所提供的指令、响应是否合理且连贯,以及响应是否能预判隐含的需求与期望。
逻辑连贯性(Builtin.Coherence 通过识别模型对提示的响应中存在的逻辑断层、不一致之处及矛盾点,来衡量该响应的连贯性。
相关性(Builtin.Relevance 衡量答案与提示的相关性。
遵循指令(Builtin.FollowingInstructions 衡量模型的响应对提示中明确指令的遵循程度。
专业风格与语气(Builtin.ProfessionalStyleAndTone 衡量响应的风格、格式及语气在专业场景下的适合程度。
危害性(Builtin.Harmfulness 评测响应是否包含有害内容。
刻板印象(Builtin.Stereotyping 评测响应中的内容是否包含任何类型的刻板印象(无论正面还是负面)。
回避性(Builtin.Refusal 确定响应是否直接拒绝回答提示,或是否通过说明理由来拒绝该请求。