Deterministische Selbstüberschätzung

Gal und Ghahramani (2016) warnten davor, Softmax-Wahrscheinlichkeiten als Konfidenzwerte zu interpretieren. Sie zeigten empirisch, dass die Weitergabe einer Punktschätzung durch die Softmax-Aktivierungsfunktion zu hohen Wahrscheinlichkeiten führt, wohingegen die Weitergabe einer Verteilung von Schätzungen über die Softmax-Methode zu vernünftigeren, niedrigeren Konfidenzwerten führt. Diese deterministische Selbstüberschätzung ist zum Teil darauf zurückzuführen, dass das Erlernen einer prädiktiven Verteilung und nicht einer einzelnen Vorhersage motiviert ist. Mathematical formula showing conditional probability of y given x. Mathematical equation showing y as a function of x, represented as y = f(x).

Formal lässt sich die deterministische Vermutung der Selbstüberschätzung anhand der folgenden Ungleichheit detailliert beschreiben:

Der Mathematical function H with parentheses, representing a hash function. Operator steht für Shannons Entropie, die größer ist, wenn sich Elemente des Eingabevektors ähnlicher sind, und daher bei gleichförmigen Vektoren am größten ist. Somit besagt die vorherige Gleichung, dass die Unsicherheit, ausgedrückt als Shannon-Entropie Mathematical function H with parentheses, representing a hash function. , des erwarteten Softmax-Wahrscheinlichkeitsvektors aus einem Bayes-Modell Mathematical formula showing P(Bayesian) with superscript and subscript elements. (der Durchschnitt einer Verteilung) größer oder gleich dem Softmax-Wahrscheinlichkeitsvektor aus einem deterministischen Modell Mathematical equation showing deterministic probability as uppercase P with "deterministic" superscript. (aus einem Modell, das eine Einzelpunktschätzung erzeugt) sein wird. Einen Beweis und eine Demonstration der Ungleichheit in der vorherigen Gleichung finden Sie in Anhang A.

Deterministische Selbstüberschätzung beeinträchtigt die Zuverlässigkeit und Sicherheit unserer Deep-Learning-Modelle. Stellen Sie sich den Fall vor, dass ein Modell zuverlässig voraussagt, dass ein Artikel an einer Montagelinie nicht defekt ist, obwohl dies tatsächlich der Fall ist, was dazu führt, dass der Artikel die Qualitätsprüfung überspringt. Dieser fehlerhafte Artikel könnte dann in ein größeres Produkt eingebettet werden, wodurch dessen Integrität beeinträchtigt wird. Das Endergebnis ist bestenfalls eine Ineffizienz, wenn der Fehler im Laufe der Zeit erkannt wird, oder schlimmer noch, ein Totalausfall des Produkts, wenn der Fehler nicht gefunden wird. Daher ist es für den Erfolg unserer Projekte und für die future von Deep Learning von entscheidender Bedeutung, deterministische Selbstüberschätzung zu verstehen und zu überwinden.

Es gibt drei Möglichkeiten, die Qualität von Unsicherheitsmessungen zu verbessern und Selbstüberschätzung zu überwinden:

Post-hoc-Kalibrierung von Softmax-Wahrscheinlichkeiten mit Temperaturskalierung (Guo et al. 2017)
Approximation der Bayesschen Inferenz durch MC-Dropout (d. h. Beibehaltung des Dropouts während der Inferenz) (Gal und Ghahramani 2016)
Annäherung an die Bayessche Inferenz mit tiefen Ensembles (Lakshminarayanan, Pritzel und Blundell 2017)

Deterministische Selbstüberschätzung ist eine Theorie, die sowohl für die Verteilung als auch für Daten gilt. out-of-distribution ¹ In den nächsten Abschnitten wird erklärt, wie die gesamte quantifizierbare Unsicherheit 2 in ihre beiden Bestandteile aufgeteilt werden kann: epistemische (Modell-) Unsicherheit und aleatorische Unsicherheit (Daten) (Kendall und Gal 2017).

Hinweise

¹ Insbesondere wurde kürzlich festgestellt, dass die Vertrauensüberschätzung mit rektifizierten linearen Einheiten (ReLU) erheblich zur Selbstüberschätzung beiträgt, wenn Daten weit von der Entscheidungsgrenze entfernt sind, insbesondere wenn Daten nicht mehr verbreitet sind (Hein, Andriushchenko und Bitterwolf 2019). Ein Vorschlag, um widerstandsfähig gegen die Selbstüberschätzung der ReLU zu werden, besteht darin, den informationstheoretischen Begriff der aleatorischen Unsicherheit zu modellieren (Gal und Ghahramani 2016, Hein, Andriushchenko und Bitterwolf 2019, van Amersfoort et al. 2020), der später in diesem Leitfaden erläutert wird.

^{2 In einigen Bereichen} wird die totale Unsicherheit in Unsicherheit, die quantifizierbar ist, und Unsicherheit, die nicht quantifizierbar ist, zerlegt. Die Diskussion in diesem Leitfaden beschränkt sich auf quantifizierbare Unsicherheit; daher werden die Begriffe „totale Unsicherheit“ und „gesamte quantifizierbare Unsicherheit“ synonym verwendet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Jenseits der Softmax-Wahrscheinlichkeit

Zerlegung von Unsicherheit