Quantitativer Vergleich von Unsicherheitsmethoden

In diesem Abschnitt wird beschrieben, wie wir die Methoden zur Schätzung der Unsicherheit anhand des Datensatzes Corpus of Linguistic Acceptability (CoLA) (Warstadt, Singh und Bowman 2019) verglichen haben. Der CoLA-Datensatz besteht aus einer Sammlung von Sätzen sowie einem binären Indikator dafür, ob sie akzeptabel sind. Sätze können aus einer Vielzahl von Gründen als inakzeptabel eingestuft werden, einschließlich falscher Syntax, Semantik oder Morphologie. Diese Sätze stammen aus Beispielen in linguistischen Publikationen. Es gibt zwei Validierungssätze. Ein Validierungssatz stammt aus denselben Quellen, die bei der Erstellung des Trainingsdatensatzes verwendet wurden (innerhalb der Domäne), und der andere Validierungssatz stammt aus Quellen, die nicht im Trainingsdatensatz enthalten sind (außerhalb der Domäne). In der folgenden Tabelle sind diese Informationen zusammengefasst.

Datensatz	Gesamtgröße	Positiv	Negativ
Training	8551	6023	2528
Validierung (in der Domäne)	527	363	164
Validierung (außerhalb der Domain)	516	354	162

Der Vergleich verwendet eine Ro-Basisarchitektur BERTa (Liu et al. 2019) mit vortrainierten Gewichten und einem zufällig initialisierten Kopf mit einer einzigen versteckten Schicht. Hyperparameter werden hauptsächlich im BERTa Ro-Papier vorgeschlagen, mit einigen geringfügigen Änderungen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Tiefe Ensembles

Temperaturskalierung