Perbandingan kuantitatif metode ketidakpastian - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perbandingan kuantitatif metode ketidakpastian

Bagian ini menjelaskan bagaimana kami membandingkan metode untuk memperkirakan ketidakpastian dengan menggunakan kumpulan data Corpus of Linguistic Acceptability (CoLA) (Warstadt, Singh, and Bowman 2019). Dataset CoLA terdiri dari kumpulan kalimat bersama dengan indikator biner apakah mereka dapat diterima. Kalimat dapat diberi label sebagai tidak dapat diterima karena berbagai alasan, termasuk sintaks, semantik, atau morfologi yang tidak tepat. Kalimat-kalimat ini diambil dari contoh-contoh dalam publikasi linguistik. Ada dua set validasi. Satu set validasi diambil dari sumber yang sama yang digunakan dalam membentuk kumpulan data pelatihan (dalam domain), dan set validasi lainnya diambil dari sumber yang tidak terkandung dalam set pelatihan (di luar domain). Tabel berikut merangkum informasi ini.

Set data Ukuran total Positif Negatif

Pelatihan

8551

6023

2528

Validasi (dalam domain)

527

363

164

Validasi (di luar domain)

516

354

162

Perbandingan menggunakan arsitektur dasar Ro BERTa (Liu et al. 2019) dengan bobot yang telah dilatih sebelumnya dan kepala yang diinisialisasi secara acak dengan satu lapisan tersembunyi. Hyperparameter sebagian besar disarankan dalam BERTa paper Ro dengan beberapa modifikasi kecil.