本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
结论
本指南从概念上概述了深度学习系统中的不确定性。它描述了扩展现有文献的实验,涵盖分布内和分布外环境中自然语言处理(NLP)的迁移学习场景。最后,它提供了一个案例研究,作为数据科学家如何在高度监管的行业中应用这些概念的路线图。
在量化深度学习网络中的不确定性时,我们的一般推荐在深度融合中使用温度缩放。当传入的数据处于分布状态时,温度缩放提供了可解释的不确定性估计。因此,温度缩放通过调整 softmax 不确定性来解决总体不确定性,使其不至于过于自信。在验证数据集上训练模型后,应对验证数据集进行温度缩放。
当数据超出分布范围时,深度融合目前可以对不确定性进行最先进的估计。当遇到与训练数据不同的数据时,它们可以提供更高的认知不确定性估计。这是由于组成深度集合的基础模型的多样性优势。我们建议,多数情况下五个模型足够。
在两种情况下,我们建议您考虑将 MC dropout 作为深度融合的替代方案:一种是托管多个模型会给基础设施带来额外负载,另一种在是迁移学习中(即使用预训练的权重时)。当需要考虑多个模型的托管要求时,MC dropout 是深度融合的有效替代方案。如果您使用 MC dropout 来替代深度融合,您应该准备好放弃一些计算延迟,以便对数据进行更多的迭代。我们建议迭代次数在 30-100 次为宜。在迁移学习中,融合的基础学习器的多样化程度将降低(即基础模型权重之间的相似度较高)。迁移学习中总预测不确定性可能很低的原因正是如此,尤其是在数据超出分布范围的环境中。因此,在迁移学习的情况下,可以考虑用 MC dropout 来补充或取代深度融合。