本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
解释您的结果
分析文本分类模型比较中的评估指标,为生产部署做出数据驱动型决策。
了解评指标
该评估为所有数据集中的每个模型提供了几个关键指标:
准确性
衡量正确预测的百分比,且在均衡数据集上表现最佳。然而,当数据不均衡且某个类占主导地位时,该指标可能产生误导性结果,甚至呈现出人为偏高的数值。
精度
通过衡量阳性预测中正确预测的百分比来评估模型在避免假阳性方面的表现。该指标范围为 0.0 至 1.0(数值越高越好),且在假阳性代价较高的场景中尤为重要。
召回率
通过衡量实际阳性案例中被成功识别出的百分比,评测模型捕获所有阳性案例的能力。该指标范围为 0.0 至 1.0(数值越高越好),且在遗漏阳性案例代价较高的场景中尤为重要。
F1 分数
提供精确率与召回率的调和平均数,将这两个指标整合为一个单一分数,其取值范围为 0.0 至 1.0(数值越高越好)。
马修斯相关系数(MCC)
衡量二元分类的总体质量,并用作不均衡数据的最佳指标。该指标范围为 -1.0 至 1.0,其中数值越高表示性能越好,0 则代表随机猜测的水平。
受试者工作特征曲线下面积
评估模型区分不同类别的能力。该指标范围为 0.0 至 1.0,其中 1.0 代表完美分类,0.5 代表随机猜测的水平。
平均推理时间
衡量预测速度,这在实时应用场景中非常重要。在评估此指标时,请同时考虑速度和一致性。
注意
不要仅依靠准确性来选择模型。对于不均衡的数据集,精度、召回率和 MCC 可提供更可靠的真实性能指标。
比较不同数据集类型的性能
均衡的数据集展示模型在理想条件下的表现,其中正负示例的占比均衡。该指标表现优异,表明该模型已掌握基本文本分类模式。
偏斜数据集展示了模型如何处理实际类别不平衡问题,此类问题在生产场景中经常出现。
高难度数据集用于测试模型在生产环境中可能出现的模糊案例或边缘案例上的稳健性。
模型选择
使用此系统性方法为特定使用案例选择最优模型。
定义您的业务优先级
在选择模型之前,请确定哪些性能因素对您的使用案例最为重要。
确定您的准确率要求以及可接受的最小性能阈值。
确定您的延迟限制,包括您需要实时处理(<100 毫秒)还是批处理。
确定推理和扩缩的成本注意事项与预算。
分析您的数据特征,以了解您的生产数据是均衡的、偏斜的还是高度可变的。
何时选择每种模型
根据您的评估结果,选择最符合您的使用案例的模型:
当您需要加快推理速度并保持较高的准确性时,可选择 DistilBERT,例如客户服务聊天机器人的实时情绪分析、内容审核系统,或响应时间需低于 100 毫秒的应用场景。
当最高准确率比速度更重要时,请选择 BERT,例如法律文件分类、医疗文本分析或精确性至关重要且批处理可接受的合规性应用场景中。
设定评估数据集的优先级
重点关注最能代表实际使用案例的数据集。
给予与实际数据最接近的数据集更多权重。
考虑边缘案例在应用中的重要性,并相应地设定高难度数据集性能的优先级。
跨多个场景平衡优化,而不是只关注一种数据集类型。
将您的评估结果与这些优先级进行比较,选择在准确性、速度与成本需求之间达到最佳平衡的模型。
您现已选择首选模型,可以开始生产部署了。继续大规模部署模型。