本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
全局可解释性
了解特征如何整体促进模型的输出提供了可用于特征选择和模型开发的总体见解。要衡量添加新特征的影响,您一般采用和不采用该特征进行交叉验证。但是,交叉验证所有特征组合和所有考虑的模型类型往往因计算成本而不可行。因此,确定特征重要性的其他方法可用于快速决策。我们对确定全局特征归因的建议是,汇总上一部分中推荐的所有数据的局部特征归因分数。我们还建议,如若时间和计算限制允许,计算当移除特征时交叉验证分数的变化。以下示例说明了局部归因分数的聚合。它对鸢尾分类模型的 SHAP 值的大小求平均值(来自概述),并将它们绘制为热图。您可以看到,萼片量值在确定鸢尾类的模型中起不到重要作用。
对于指定的模型输出,跨评估实例的 SHAP 值集合可以在蜂群图中可视化,如下图所示(对于来自鸢尾数据集的数据子集 [4])。这里,您可以看到 petal_width 属性对类别 Iris-versicolor 的模型输出影响最大,而较高的 petal_width 值会对类别预测产生负面影响。当不止一个数据点具有相同或非常相似的特征归因值时,堆叠这些点以指示该位置出更大的流行率。