Exceso de confianza determinista

Gal y Ghahramani (2016) advirtieron contra la interpretación de las probabilidades softmax como puntuaciones de confianza. Demostraron empíricamente que si se pasa una estimación puntual a través de la función de activación softmax, se obtienen altas probabilidades, mientras que si se pasa una distribución de estimaciones a través de softmax, se obtienen puntuaciones de confianza más razonables y más bajas. Este exceso de confianza determinista se debe en parte a lo que motiva a conocer una distribución predictiva Mathematical formula showing conditional probability of y given x. , en lugar de una sola predicción Mathematical equation showing y as a function of x, represented as y = f(x). .

Formalmente, la conjetura determinista del exceso de confianza se puede detallar mediante la siguiente desigualdad:

El operador Mathematical function H with parentheses, representing a hash function. representa la entropía de Shannon, que es mayor cuando los elementos del vector de entrada son más similares y, por lo tanto, es mayor para los vectores uniformes. Por lo tanto, la ecuación anterior establece que la incertidumbre, en términos de entropía de Shannon Mathematical function H with parentheses, representing a hash function. , del vector de probabilidad softmax esperado de un modelo bayesiano Mathematical formula showing P(Bayesian) with superscript and subscript elements. (el promedio de una distribución), será mayor o igual que el vector de probabilidad softmax de un modelo determinista Mathematical equation showing deterministic probability as uppercase P with "deterministic" superscript. (de un modelo que produce una estimación de un solo punto). Para ver una prueba y una demostración de la desigualdad de la ecuación anterior, consulte el Apéndice A.

El exceso de confianza determinista afecta a la fiabilidad y la seguridad de nuestros modelos de aprendizaje profundo. Pensemos en el caso en el que un modelo predice con seguridad que un artículo de una línea de ensamblaje no es defectuoso, sino que lo es, lo que provoca que el artículo se salte el proceso de revisión de calidad. Este artículo defectuoso podría entonces incrustarse en un producto más grande y comprometer su integridad. En el mejor de los casos, el resultado final es una ineficiencia si el defecto se detecta más adelante o, lo que es peor, un fallo total del producto si no se detecta el defecto. Por lo tanto, es fundamental comprender y superar los problemas deterministas de exceso de confianza para el éxito de nuestros proyectos y para el futuro del aprendizaje profundo.

Hay tres formas de mejorar la calidad de las mediciones de incertidumbre y superar el exceso de confianza:

Calibración de las probabilidades softmax, a posteriori, con escalado de temperatura (Guo et al., 2017)
Aproximación de la inferencia bayesiana mediante MC dropout (es decir, manteniendo activado el abandono durante la inferencia) (Gal y Ghahramani 2016)
Aproximación de la inferencia bayesiana con conjuntos profundos (Lakshminarayanan, Pritzel y Blundell 2017)

El exceso de confianza determinista es una teoría que se aplica tanto a los datos dentro como fuera de la distribución.¹ En las siguientes secciones se explica cómo dividir la incertidumbre cuantificable total² en sus dos componentes constitutivos: la incertidumbre epistémica (modelo) y la incertidumbre aleatoria (datos) (Kendall y Gal 2017).

Notas

¹ En particular, se ha descubierto recientemente que el exceso de confianza en la unidad lineal rectificada (ReLU) contribuye significativamente al exceso de confianza cuando los datos están lejos del límite de decisión, especialmente cuando los datos quedan fuera de la distribución (Hein, Andriushchenko y Bitterwolf 2019). Una forma sugerida de fortalecerse contra el exceso de confianza de ReLU es modelar la noción teórica de la información de incertidumbre aleatoria (Gal y Ghahramani 2016, Hein, Andriushchenko y Bitterwolf 2019, van Amersfoort et al. 2020), que se explica más adelante en esta guía.

² Algunos campos descomponen la incertidumbre total en incertidumbre cuantificable e incertidumbre no cuantificable. El análisis de esta guía se limita a la incertidumbre cuantificable; por lo tanto, los términos incertidumbre total e incertidumbre cuantificable total se utilizan indistintamente.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Más allá de la probabilidad softmax

Descomposición de la incertidumbre