Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Schlussfolgerung
Dieser Leitfaden bot einen konzeptionellen Überblick über die Unsicherheit in Deep-Learning-Systemen. Es wurden Experimente beschrieben, die die bestehende Literatur um das Transfer-Lern-Szenario für die Verarbeitung natürlicher Sprache (NLP) sowohl in der Verteilung als auch in Umgebungen erweitern. out-of-distribution Schließlich wurde eine Fallstudie vorgestellt, die als Wegweiser dafür dient, wie Datenwissenschaftler diese Konzepte bei ihrer Arbeit in einer stark regulierten Branche anwenden können.
Bei der Quantifizierung der Unsicherheit in Deep-Learning-Netzwerken empfehlen wir generell, die Temperaturskalierung mit tiefen Ensembles zu verwenden. Die Temperaturskalierung liefert interpretierbare Unsicherheitsschätzungen, wenn eingehende Daten verteilt werden. Daher trägt die Temperaturskalierung der Gesamtunsicherheit Rechnung, indem die Softmax-Unsicherheiten so angepasst werden, dass sie nicht zu stark sind. Die Temperaturskalierung sollte am Validierungsdatensatz durchgeführt werden, nachdem das Modell anhand des Validierungsdatensatzes trainiert wurde.
Umfassende Ensembles liefern derzeit state-of-the-art Schätzungen der Unsicherheit, wenn Daten nicht verteilt sind. Sie liefern höhere Schätzungen der epistemischen Unsicherheit, wenn ihnen Daten vorgelegt werden, die sich von den Trainingsdaten unterscheiden. Dies ist auf die Stärke der Diversität der zugrunde liegenden Modelle zurückzuführen, aus denen sich das Deep Ensemble zusammensetzt. Wir gehen davon aus, dass in den meisten Situationen fünf Modelle ausreichen.
In zwei Szenarien empfehlen wir, MC-Dropout als Alternative zu tiefen Ensembles in Betracht zu ziehen: wenn das Hosten mehrerer Modelle aufgrund der zusätzlichen Belastung der Infrastruktur ein Problem darstellt, und beim Transfer Learning (d. h. bei der Verwendung vortrainierter Gewichte). Wenn die Hosting-Anforderungen für mehrere Modelle ein Problem darstellen, ist MC-Dropout eine gute Alternative zu Deep-Ensembles. Wenn Sie MC-Dropout als Ersatz für tiefe Ensembles verwenden, sollten Sie bereit sein, etwas Rechenlatenz zu opfern, um mehr Iterationen durch die Daten durchführen zu können. Wir empfehlen 30-100 Iterationen als angemessenen Bereich. Beim Transferlernen wird es zu einer geringeren Diversifikation unter den Ensemblemitgliedern kommen (das heißt, die Gewichte des zugrundeliegenden Modells werden einander ähnlicher sein). Aus diesem Grund kann die totale Vorhersageunsicherheit beim Transferlernen gering sein, insbesondere in Umgebungen mit Daten. out-of-distribution Daher sollten Sie in der Situation des Transfer-Lernens erwägen, tiefe Ensembles durch MC-Dropout zu ergänzen oder zu ersetzen.