本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
评估和比较模型性能
使用评估框架评估已部署的文本分类模型。该框架通过基于笔记本的方法来支持有监督和无监督评估模式。
使用内置数据集
对于本教程,我们建议使用内置的有监督评估数据集,因为大多数用户没有现成的已标记的评估数据。内置数据集可针对不同的场景提供全面的性能分析:
均衡数据集:类别分布均衡,用于获取基准性能。
偏斜数据集:类别不均衡,用于真实场景测试。
高难度数据集:用于压力测试模型稳健性的边缘场景。
该评估会生成关键指标,包括准确率、精确率、召回率、F1 分数、马修斯相关系数(MCC)以及受试者工作特征曲线下面积,同时提供可视化曲线,以便进行模型比较。
使用自定义数据
如果您拥有自己的标注的数据集,可以在笔记本中将其替换。该框架会自动适应您的数据格式,并生成相同的全面指标。
支持的数据格式:
CSV 格式:两列:
text和label标签格式:"positive"/"negative"、"LABEL_0"/"LABEL_1"、"True"/"False" 或 "0"/"1"
无监督:用于置信度分析的单个
text列
设置您的评估环境
在 SageMaker Amazon SageMaker Studio 中创建一个 JupyterLab 空间来运行评估笔记本。
-
在 Studio 中,JupyterLab从主屏幕中进行选择。
-
如果您不具有空间:
-
选择创建空间。
-
输入描述性名称(例如
TextModelEvaluation))。 -
保留默认实例类型。
-
选择运行空间。
-
空间创建完成后,选择 “打开” JupyterLab。
-
访问评估笔记本
下载 zip 文件并将其提取到本地计算机。将整个提取的文件夹上传到您的 JupyterLab 空间,开始测试您的模型。该软件包包含主评估笔记本、示例数据集、支持的 Python 模块以及完整评估框架的详细说明。
注意
提取软件包后,请查看自述文件,了解详细的设置说明和框架概览。
继续解释您的结果,了解如何分析评估输出并做出基于数据的模型选择决策。