评估和比较模型性能

使用评估框架评估已部署的文本分类模型。该框架通过基于笔记本的方法来支持有监督和无监督评估模式。

使用内置数据集

对于本教程，我们建议使用内置的有监督评估数据集，因为大多数用户没有现成的已标记的评估数据。内置数据集可针对不同的场景提供全面的性能分析：

该评估会生成关键指标，包括准确率、精确率、召回率、F1 分数、马修斯相关系数（MCC）以及受试者工作特征曲线下面积，同时提供可视化曲线，以便进行模型比较。

如果您拥有自己的标注的数据集，可以在笔记本中将其替换。该框架会自动适应您的数据格式，并生成相同的全面指标。

支持的数据格式：

在 SageMaker Amazon SageMaker Studio 中创建一个 JupyterLab 空间来运行评估笔记本。

下载 zip 文件并将其提取到本地计算机。将整个提取的文件夹上传到您的 JupyterLab 空间，开始测试您的模型。该软件包包含主评估笔记本、示例数据集、支持的 Python 模块以及完整评估框架的详细说明。

提取软件包后，请查看自述文件，了解详细的设置说明和框架概览。

继续解释您的结果，了解如何分析评估输出并做出基于数据的模型选择决策。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

选择和部署文本分类模型

解释您的结果