Excesso de confiança determinista

Gal e Ghahramani (2016) alertaram contra a interpretação das probabilidades softmax como pontuações de confiança. Eles mostraram empiricamente que passar uma estimativa pontual por meio da função de ativação softmax gera grandes probabilidades, enquanto passar uma distribuição de estimativas pela softmax produz pontuações de confiança mais razoáveis e mais baixas. Esse excesso de confiança determinista se deve em parte ao que motiva o aprendizado de uma distribuição preditiva Mathematical formula showing conditional probability of y given x. , em vez de uma única previsão Mathematical equation showing y as a function of x, represented as y = f(x). .

Formalmente, a conjectura determinística do excesso de confiança pode ser detalhada pela seguinte desigualdade:

O operador Mathematical function H with parentheses, representing a hash function. representa a entropia de Shannon, que é maior quando os elementos do vetor de entrada são mais semelhantes e, portanto, é maior para vetores uniformes. Assim, a equação anterior afirma que a incerteza, em termos da entropia de Shannon Mathematical function H with parentheses, representing a hash function. , do vetor de probabilidade softmax esperado de um modelo bayesiano Mathematical formula showing P(Bayesian) with superscript and subscript elements. (a média de uma distribuição), será maior ou igual ao vetor de probabilidade softmax de um modelo determinístico Mathematical equation showing deterministic probability as uppercase P with "deterministic" superscript. (de um modelo que produz uma estimativa de ponto único). Para uma prova e demonstração da desigualdade na equação anterior, consulte o Apêndice A.

O excesso de confiança determinístico afeta a confiabilidade e a segurança de nossos modelos de aprendizado profundo. Considere o caso em que um modelo prevê com segurança que um item em uma linha de montagem não está com defeito, quando, na verdade, está, fazendo com que o item pule o processo de revisão de qualidade. Esse item defeituoso pode então ser incorporado a um produto maior, comprometendo sua integridade. Na melhor das hipóteses, o resultado final é uma ineficiência se o defeito for detectado no futuro, ou pior, uma falha total do produto, se o defeito não for encontrado. Portanto, é fundamental entender e superar os problemas determinísticos de excesso de confiança para o sucesso de nossos projetos e para o futuro do aprendizado profundo.

Três maneiras de melhorar a qualidade das medições de incerteza e superar o excesso de confiança são:

Como calibrar probabilidades softmax, post-hoc, com escala de temperatura (Guo et al. 2017)
Aproximando a inferência bayesiana pela integração de MC (ou seja, mantendo o abandono ativado durante a inferência) (Gal e Ghahramani 2016)
Como aproximar a inferência bayesiana com conjuntos profundos (Lakshminarayanan, Pritzel e Blundell 2017)

O excesso de confiança determinístico é uma teoria que se aplica tanto a dados distribuídos quanto a dados fora da distribuição.¹ As próximas seções explicam como dividir a incerteza quantificável total² em seus dois componentes constituintes: incerteza epistêmica (modelo) e incerteza aleatória (dados) (Kendall e Gal 2017).

Observações

¹ Em particular, descobriu-se recentemente que o excesso de confiança da unidade linear retificada (ReLU) contribui significativamente para o excesso de confiança quando os dados estão longe do limite de decisão, especialmente quando os dados ficam fora de distribuição (Hein, Andriushchenko e Bitterwolf 2019). Uma maneira sugerida de se tornar robusto contra o excesso de confiança em ReLU é modelar a noção teórica da informação de incerteza aleatória (Gal e Ghahramani 2016, Hein, Andriushchenko e Bitterwolf 2019, van Amersfoort et al. 2020), que será explicada posteriormente neste guia.

² Alguns campos decompõem incerteza total em incerteza quantificável e incerteza não quantificável. A discussão neste guia é limitada à incerteza quantificável; portanto, os termos incerteza total e incerteza total quantificável são usados de forma intercambiável.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Além da probabilidade softmax

Incerteza em decomposição