Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Perbandingan kuantitatif metode ketidakpastian
Bagian ini menjelaskan bagaimana kami membandingkan metode untuk memperkirakan ketidakpastian dengan menggunakan kumpulan data Corpus of Linguistic Acceptability (CoLA) (Warstadt, Singh, and Bowman 2019). Dataset CoLA terdiri dari kumpulan kalimat bersama dengan indikator biner apakah mereka dapat diterima. Kalimat dapat diberi label sebagai tidak dapat diterima karena berbagai alasan, termasuk sintaks, semantik, atau morfologi yang tidak tepat. Kalimat-kalimat ini diambil dari contoh-contoh dalam publikasi linguistik. Ada dua set validasi. Satu set validasi diambil dari sumber yang sama yang digunakan dalam membentuk kumpulan data pelatihan (dalam domain), dan set validasi lainnya diambil dari sumber yang tidak terkandung dalam set pelatihan (di luar domain). Tabel berikut merangkum informasi ini.
| Set data | Ukuran total | Positif | Negatif |
|---|---|---|---|
Pelatihan |
8551 |
6023 |
2528 |
Validasi (dalam domain) |
527 |
363 |
164 |
Validasi (di luar domain) |
516 |
354 |
162 |
Perbandingan menggunakan arsitektur dasar Ro BERTa (Liu et al. 2019) dengan bobot yang telah dilatih sebelumnya dan kepala yang diinisialisasi secara acak dengan satu lapisan tersembunyi. Hyperparameter sebagian besar disarankan dalam BERTa paper Ro dengan beberapa modifikasi kecil.