评估和比较模型性能 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

评估和比较模型性能

使用评估框架评估已部署的文本分类模型。该框架通过基于笔记本的方法来支持有监督和无监督评估模式。

使用内置数据集

对于本教程,我们建议使用内置的有监督评估数据集,因为大多数用户没有现成的已标记的评估数据。内置数据集可针对不同的场景提供全面的性能分析:

  • 均衡数据集:类别分布均衡,用于获取基准性能。

  • 偏斜数据集:类别不均衡,用于真实场景测试。

  • 高难度数据集:用于压力测试模型稳健性的边缘场景。

该评估会生成关键指标,包括准确率、精确率、召回率、F1 分数、马修斯相关系数(MCC)以及受试者工作特征曲线下面积,同时提供可视化曲线,以便进行模型比较。

使用自定义数据

如果您拥有自己的标注的数据集,可以在笔记本中将其替换。该框架会自动适应您的数据格式,并生成相同的全面指标。

支持的数据格式:

  • CSV 格式:两列:textlabel

  • 标签格式:"positive"/"negative"、"LABEL_0"/"LABEL_1"、"True"/"False" 或 "0"/"1"

  • 无监督:用于置信度分析的单个 text

设置您的评估环境

在 SageMaker Amazon SageMaker Studio 中创建一个 JupyterLab 空间来运行评估笔记本。

  1. 在 Studio 中,JupyterLab从主屏幕中进行选择。

  2. 如果您不具有空间:

    1. 选择创建空间

    2. 输入描述性名称(例如 TextModelEvaluation))。

    3. 保留默认实例类型。

    4. 选择运行空间

    5. 空间创建完成后,选择 “打开” JupyterLab。

访问评估笔记本

下载 zip 文件并将其提取到本地计算机。将整个提取的文件夹上传到您的 JupyterLab 空间,开始测试您的模型。该软件包包含主评估笔记本、示例数据集、支持的 Python 模块以及完整评估框架的详细说明。

注意

提取软件包后,请查看自述文件,了解详细的设置说明和框架概览。

继续解释您的结果,了解如何分析评估输出并做出基于数据的模型选择决策。