Excès de confiance déterministe

Gal et Ghahramani (2016) ont mis en garde contre l'interprétation des probabilités softmax comme des scores de confiance. Ils ont démontré de façon empirique que la transmission d'une estimation ponctuelle par le biais de la fonction d'activation softmax produit de grandes probabilités, tandis que la transmission d'une distribution d'estimations par le biais de la fonction softmax donne des scores de confiance plus raisonnables et plus faibles. Cet excès de confiance déterministe est en partie dû à ce qui motive l'apprentissage d'une distribution prédictive Mathematical formula showing conditional probability of y given x. , au lieu d'une prédiction unique. Mathematical equation showing y as a function of x, represented as y = f(x).

Formellement, la conjecture déterministe d'excès de confiance peut être détaillée par l'inégalité suivante :

L' Mathematical function H with parentheses, representing a hash function. opérateur représente l'entropie de Shannon, qui est plus grande lorsque les éléments du vecteur d'entrée sont plus similaires, et est donc la plus grande pour les vecteurs uniformes. Ainsi, l'équation précédente indique que l'incertitude, en termes d'entropie de Shannon Mathematical function H with parentheses, representing a hash function. , du vecteur de probabilité softmax attendu d'un modèle bayésien Mathematical formula showing P(Bayesian) with superscript and subscript elements. (la moyenne d'une distribution) sera supérieure ou égale au vecteur de probabilité softmax d'un modèle déterministe Mathematical equation showing deterministic probability as uppercase P with "deterministic" superscript. (d'un modèle qui produit une estimation ponctuelle). Pour une preuve et une démonstration de l'inégalité dans l'équation précédente, voir l'annexe A.

L'excès de confiance déterministe affecte la fiabilité et la sécurité de nos modèles d'apprentissage profond. Imaginons le cas où un modèle prédit avec certitude qu'un article d'une chaîne de montage n'est pas défectueux, alors qu'en fait c'est le cas, ce qui fait que l'article n'est pas soumis au processus de contrôle qualité. Cet article défectueux peut ensuite être intégré dans un produit plus grand, compromettant ainsi son intégrité. Au mieux, le résultat final est une inefficacité si le défaut est détecté en fin de chaîne, ou pire encore, une défaillance totale du produit, si le défaut n'est pas détecté. Il est donc essentiel de comprendre et de surmonter les problèmes d'excès de confiance déterministe pour le succès de nos projets et pour le futur du deep learning.

Trois moyens d'améliorer la qualité des mesures d'incertitude et de surmonter l'excès de confiance sont les suivants :

Étalonnage des probabilités softmax, post-hoc, avec mise à l'échelle de la température (Guo et al. 2017)
Approximation de l'inférence bayésienne par abandon du MC (c'est-à-dire maintenir le décrochage pendant l'inférence) (Gal et Ghahramani 2016)
Approximation de l'inférence bayésienne avec des ensembles profonds (Lakshminarayanan, Pritzel et Blundell 2017)

L'excès de confiance déterministe est une théorie qui s'applique à la fois à la distribution et aux données. out-of-distribution ¹ Les sections suivantes expliquent comment diviser l'incertitude quantifiable totale ² en ses deux composantes : l'incertitude épistémique (modèle) et l'incertitude aléatoire (données) (Kendall et Gal 2017).

Remarques

¹ En particulier, il a récemment été démontré que l'excès de confiance en unités linéaires rectifiées (ReLU) contribuait de manière significative à l'excès de confiance lorsque les données sont éloignées de la limite de décision, en particulier lorsque les données sont hors distribution (Hein, Andriushchenko et Bitterwolf 2019). Une méthode suggérée pour lutter contre l'excès de confiance en ReLU consiste à modéliser la notion théorique de l'information d'incertitude aléatoire (Gal et Ghahramani 2016, Hein, Andriushchenko et Bitterwolf 2019, van Amersfoort et al. 2020), qui est expliquée plus loin dans ce guide.

² Certains champs décomposent l'incertitude totale en incertitude quantifiable et en incertitude non quantifiable. La discussion dans ce guide se limite à l'incertitude quantifiable ; par conséquent, les termes incertitude totale et incertitude quantifiable totale sont utilisés de manière interchangeable.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Au-delà de la probabilité softmax

Décomposer l'incertitude