Quantitativer Vergleich von Unsicherheitsmethoden - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Quantitativer Vergleich von Unsicherheitsmethoden

In diesem Abschnitt wird beschrieben, wie wir die Methoden zur Schätzung der Unsicherheit anhand des Datensatzes Corpus of Linguistic Acceptability (CoLA) (Warstadt, Singh und Bowman 2019) verglichen haben. Der CoLA-Datensatz besteht aus einer Sammlung von Sätzen sowie einem binären Indikator dafür, ob sie akzeptabel sind. Sätze können aus einer Vielzahl von Gründen als inakzeptabel eingestuft werden, einschließlich falscher Syntax, Semantik oder Morphologie. Diese Sätze stammen aus Beispielen in linguistischen Publikationen. Es gibt zwei Validierungssätze. Ein Validierungssatz stammt aus denselben Quellen, die bei der Erstellung des Trainingsdatensatzes verwendet wurden (innerhalb der Domäne), und der andere Validierungssatz stammt aus Quellen, die nicht im Trainingsdatensatz enthalten sind (außerhalb der Domäne). In der folgenden Tabelle sind diese Informationen zusammengefasst.

Datensatz Gesamtgröße Positiv Negativ

Training

8551

6023

2528

Validierung (in der Domäne)

527

363

164

Validierung (außerhalb der Domain)

516

354

162

Der Vergleich verwendet eine Ro-Basisarchitektur BERTa (Liu et al. 2019) mit vortrainierten Gewichten und einem zufällig initialisierten Kopf mit einer einzigen versteckten Schicht. Hyperparameter werden hauptsächlich im BERTa Ro-Papier vorgeschlagen, mit einigen geringfügigen Änderungen.