Comparaison quantitative des méthodes d'incertitude - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comparaison quantitative des méthodes d'incertitude

Cette section décrit comment nous avons comparé les méthodes d'estimation de l'incertitude à l'aide de l'ensemble de données Corpus of Linguistic Acceptability (CoLA) (Warstadt, Singh et Bowman 2019). L'ensemble de données CoLA consiste en une collection de phrases ainsi qu'un indicateur binaire indiquant si elles sont acceptables. Les phrases peuvent être considérées comme inacceptables pour diverses raisons, notamment une syntaxe, une sémantique ou une morphologie inappropriées. Ces phrases sont tirées d'exemples de publications linguistiques. Il existe deux ensembles de validation. Un ensemble de validation provient des mêmes sources que celles utilisées pour former le jeu de données d'apprentissage (dans le domaine), et l'autre ensemble de validation provient de sources qui ne figurent pas dans le jeu d'apprentissage (hors domaine). Le tableau suivant récapitule ces informations.

Jeux de données Taille totale Positif Négatif

Entrainement

8551

6023

2528

Validation (dans le domaine)

527

363

164

Validation (hors domaine)

516

354

162

La comparaison utilise une architecture de base Ro BERTa (Liu et al. 2019) avec des poids préentraînés et une tête initialisée de manière aléatoire avec une seule couche cachée. Les hyperparamètres sont principalement suggérés dans le Ro BERTa paper avec quelques modifications mineures.