As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Excesso de confiança determinista
Gal e Ghahramani (2016) alertaram contra a interpretação das probabilidades softmax como pontuações de confiança. Eles mostraram empiricamente que passar uma estimativa pontual por meio da função de ativação softmax gera grandes probabilidades, enquanto passar uma distribuição de estimativas pela softmax produz pontuações de confiança mais razoáveis e mais baixas. Esse excesso de confiança determinista se deve em parte ao que motiva o aprendizado de uma distribuição preditiva
, em vez de uma única previsão
.
Formalmente, a conjectura determinística do excesso de confiança pode ser detalhada pela seguinte desigualdade:
O operador
representa a entropia de Shannon, que é maior quando os elementos do vetor de entrada são mais semelhantes e, portanto, é maior para vetores uniformes. Assim, a equação anterior afirma que a incerteza, em termos da entropia de Shannon
, do vetor de probabilidade softmax esperado de um modelo bayesiano
(a média de uma distribuição), será maior ou igual ao vetor de probabilidade softmax de um modelo determinístico
(de um modelo que produz uma estimativa de ponto único). Para uma prova e demonstração da desigualdade na equação anterior, consulte o Apêndice A.
O excesso de confiança determinístico afeta a confiabilidade e a segurança de nossos modelos de aprendizado profundo. Considere o caso em que um modelo prevê com segurança que um item em uma linha de montagem não está com defeito, quando, na verdade, está, fazendo com que o item pule o processo de revisão de qualidade. Esse item defeituoso pode então ser incorporado a um produto maior, comprometendo sua integridade. Na melhor das hipóteses, o resultado final é uma ineficiência se o defeito for detectado no futuro, ou pior, uma falha total do produto, se o defeito não for encontrado. Portanto, é fundamental entender e superar os problemas determinísticos de excesso de confiança para o sucesso de nossos projetos e para o futuro do aprendizado profundo.
Três maneiras de melhorar a qualidade das medições de incerteza e superar o excesso de confiança são:
-
Como calibrar probabilidades softmax, post-hoc, com escala de temperatura (Guo et al. 2017)
-
Aproximando a inferência bayesiana pela integração de MC (ou seja, mantendo o abandono ativado durante a inferência) (Gal e Ghahramani 2016)
-
Como aproximar a inferência bayesiana com conjuntos profundos (Lakshminarayanan, Pritzel e Blundell 2017)
O excesso de confiança determinístico é uma teoria que se aplica tanto a dados distribuídos quanto a dados fora da distribuição.1 As próximas seções explicam como dividir a incerteza quantificável total2 em seus dois componentes constituintes: incerteza epistêmica (modelo) e incerteza aleatória (dados) (Kendall e Gal 2017).
Observações
1 Em particular, descobriu-se recentemente que o excesso de confiança da unidade linear retificada (ReLU) contribui significativamente para o excesso de confiança quando os dados estão longe do limite de decisão, especialmente quando os dados ficam fora de distribuição (Hein, Andriushchenko e Bitterwolf 2019). Uma maneira sugerida de se tornar robusto contra o excesso de confiança em ReLU é modelar a noção teórica da informação de incerteza aleatória (Gal e Ghahramani 2016, Hein, Andriushchenko e Bitterwolf 2019, van Amersfoort et al. 2020), que será explicada posteriormente neste guia.
2 Alguns campos decompõem incerteza total em incerteza quantificável e incerteza não quantificável. A discussão neste guia é limitada à incerteza quantificável; portanto, os termos incerteza total e incerteza total quantificável são usados de forma intercambiável.