Eccessiva sicurezza deterministica - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Eccessiva sicurezza deterministica

Gal e Ghahramani (2016) hanno messo in guardia dall'interpretare le probabilità softmax come punteggi di fiducia. Hanno dimostrato empiricamente che il passaggio di una stima puntuale tramite la funzione di attivazione softmax produce grandi probabilità, mentre il passaggio di una distribuzione di stime tramite softmax produce punteggi di confidenza più ragionevoli e inferiori. Questa eccessiva confidenza deterministica è in parte dovuta a ciò che motiva l'apprendimento di una distribuzione predittiva, anziché di una singola previsione. Mathematical formula showing conditional probability of y given x. Mathematical equation showing y as a function of x, represented as y = f(x).

Formalmente, la congettura deterministica dell'eccessiva confidenza può essere dettagliata dalla seguente disuguaglianza:

Disuguaglianza

L' Mathematical function H with parentheses, representing a hash function. operatore rappresenta l'entropia di Shannon, che è maggiore quando gli elementi del vettore di input sono più simili, ed è quindi maggiore per i vettori uniformi. Pertanto, l'equazione precedente afferma che l'incertezza, in termini di entropia di Shannon Mathematical function H with parentheses, representing a hash function. , del vettore di probabilità softmax previsto da un modello bayesiano Mathematical formula showing P(Bayesian) with superscript and subscript elements. (la media di una distribuzione), sarà maggiore o uguale al vettore di probabilità softmax di un modello deterministico Mathematical equation showing deterministic probability as uppercase P with "deterministic" superscript. (da un modello che produce una stima a punto singolo). Per una dimostrazione e una dimostrazione della disuguaglianza nell'equazione precedente, vedere l'Appendice A.

L'eccessiva confidenza deterministica influisce sull'affidabilità e sulla sicurezza dei nostri modelli di deep learning. Consideriamo il caso in cui un modello preveda con sicurezza che un articolo su una linea di assemblaggio non sia difettoso, mentre, in realtà, lo è, facendo sì che l'articolo salti il processo di controllo qualità. Questo articolo difettoso potrebbe quindi essere incorporato in un prodotto più grande, compromettendone l'integrità. Nella migliore delle ipotesi, il risultato finale è un'inefficienza se il difetto viene rilevato in un secondo momento o, peggio, un guasto totale del prodotto, se il difetto non viene rilevato. Pertanto, è fondamentale comprendere e superare i problemi di eccessiva fiducia deterministica per il successo dei nostri progetti e per il futuro del deep learning.

Tre modi per migliorare la qualità delle misurazioni dell'incertezza e superare l'eccessiva fiducia sono:

L'eccessiva confidenza deterministica è una teoria che si applica out-of-distribution sia alla distribuzione che ai dati. 1 Le sezioni successive spiegano come suddividere l'incertezza quantificabile totale 2 nelle sue due componenti costitutive: incertezza epistemica (modello) e incertezza aleatoria (dati) (Kendall e Gal 2017).

Note

1 In particolare, è stato recentemente scoperto che l'eccessiva confidenza delle unità lineari rettificate (ReLU) contribuisce in modo significativo all'eccessiva confidenza quando i dati sono lontani dal limite decisionale, specialmente quando i dati non vengono distribuiti (Hein, Andriushchenko e Bitterwolf 2019). Un modo suggerito per diventare robusti contro l'eccessiva fiducia in ReLu è modellare la nozione teorica dell'informazione di incertezza aleatoria (Gal e Ghahramani 2016, Hein, Andriushchenko eBitterwolf 2019, van Amersfoort et al. 2020), che viene spiegata più avanti in questa guida.

2 Alcuni campi scompongono l'incertezza totale in incertezza quantificabile e incertezza non quantificabile. La discussione contenuta in questa guida si limita all'incertezza quantificabile; pertanto, i termini incertezza totale e incertezza quantificabile totale sono usati in modo intercambiabile.