Comparação quantitativa de métodos de incerteza

Esta seção descreve como comparamos os métodos para estimar a incerteza usando o conjunto de dados Corpus of Linguistic Acceptability (CoLA) (Warstadt, Singh e Bowman 2019). O conjunto de dados CoLA consiste em uma coleção de frases associada a um indicador binário que determina se elas são aceitáveis. As frases podem ser rotuladas como inaceitáveis por vários motivos, incluindo sintaxe, semântica ou morfologia impróprias. Essas frases são retiradas de exemplos em publicações linguísticas. Há dois conjuntos de validação. Um conjunto de validação é obtido das mesmas fontes usadas na formação do conjunto de dados de treinamento (no domínio), e o outro conjunto de validação é obtido de fontes que não estão contidas no conjunto de treinamento (fora do domínio). A tabela a seguir resume essas informações.

Conjunto de dados	Tamanho total	Positivo	Negativo
Treinamento	8551	6023	2528
Validação (no domínio)	527	363	164
Validação (fora do domínio)	516	354	162

A comparação usa uma arquitetura básica RobERTa (Liu et al. 2019) com pesos pré-treinados e uma cabeça inicializada aleatoriamente com uma única camada oculta. Hiperparâmetros são sugeridos principalmente no artigo RobERTa com algumas pequenas modificações.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conjuntos profundos

Escalonamento de temperatura