Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Penskalaan suhu
Dalam masalah klasifikasi, probabilitas yang diprediksi (keluaran softmax) diasumsikan mewakili probabilitas kebenaran sebenarnya untuk kelas yang diprediksi. Namun, meskipun asumsi ini mungkin masuk akal untuk model satu dekade yang lalu, itu tidak benar untuk model jaringan saraf modern saat ini (Guo et al. 2017). Hilangnya koneksi antara probabilitas prediksi model dan kepercayaan prediksi model akan mencegah penerapan model jaringan saraf modern ke dalam masalah dunia nyata, seperti dalam sistem pengambilan keputusan. Mengetahui dengan tepat skor kepercayaan prediksi model adalah salah satu pengaturan pengendalian risiko paling penting yang diperlukan untuk membangun aplikasi pembelajaran mesin yang kuat dan dapat dipercaya.
Model jaringan saraf modern cenderung memiliki arsitektur besar dengan jutaan parameter pembelajaran. Distribusi probabilitas prediksi dalam model seperti itu seringkali sangat miring ke 1 atau 0, yang berarti bahwa model tersebut terlalu percaya diri dan nilai absolut dari probabilitas ini bisa jadi tidak berarti. (Masalah ini tidak tergantung pada apakah ketidakseimbangan kelas ada dalam kumpulan data.) Berbagai metode kalibrasi untuk membuat skor kepercayaan prediksi telah dikembangkan dalam sepuluh tahun terakhir melalui langkah-langkah pasca-pemrosesan untuk mengkalibrasi ulang probabilitas naif model. Bagian ini menjelaskan satu metode kalibrasi yang disebut penskalaan suhu, yang merupakan teknik sederhana namun efektif untuk mengkalibrasi ulang probabilitas prediksi (Guo et al. 2017). Penskalaan suhu adalah versi parameter tunggal dari Platt Logistic Scaling (Platt 1999).
Penskalaan suhu menggunakan parameter skalar tunggal T > 0, di mana T adalah suhu, untuk mengubah skala skor logit sebelum menerapkan fungsi softmax, seperti yang ditunjukkan pada gambar berikut. Karena T yang sama digunakan untuk semua kelas, keluaran softmax dengan penskalaan memiliki hubungan monotonik dengan output yang tidak diskalakan. Ketika T = 1, Anda memulihkan probabilitas asli dengan fungsi softmax default. Dalam model yang terlalu percaya diri di mana T > 1, probabilitas yang dikalibrasi ulang memiliki nilai yang lebih rendah daripada probabilitas asli, dan mereka didistribusikan lebih merata antara 0 dan 1.
Metode untuk mendapatkan suhu T optimal untuk model terlatih adalah dengan meminimalkan kemungkinan log negatif untuk kumpulan data validasi yang ditahan.
Kami menyarankan Anda mengintegrasikan metode penskalaan suhu sebagai bagian dari proses pelatihan model: Setelah pelatihan model selesai, ekstrak nilai suhu T dengan menggunakan kumpulan data validasi, dan kemudian skala ulang nilai logit dengan menggunakan T dalam fungsi softmax. Berdasarkan eksperimen dalam tugas klasifikasi teks menggunakan model berbasis Bert, suhu T biasanya berskala antara 1,5 dan 3.
Gambar berikut mengilustrasikan metode penskalaan suhu, yang menerapkan nilai suhu T sebelum meneruskan skor logit ke fungsi softmax.
Probabilitas yang dikalibrasi dengan penskalaan suhu kira-kira dapat mewakili skor kepercayaan prediksi model. Ini dapat dievaluasi secara kuantitatif dengan membuat diagram reliabilitas (Guo et al. 2017), yang mewakili keselarasan antara distribusi akurasi yang diharapkan dan distribusi probabilitas prediksi.
Penskalaan suhu juga telah dievaluasi sebagai cara yang efektif untuk mengukur ketidakpastian prediksi total dalam probabilitas yang dikalibrasi, tetapi tidak kuat dalam menangkap ketidakpastian epistemik dalam skenario seperti penyimpangan data (Ovadia et al. 2019). Mempertimbangkan kemudahan implementasi, kami menyarankan Anda menerapkan penskalaan suhu pada keluaran model pembelajaran mendalam Anda untuk membangun solusi yang kuat untuk mengukur ketidakpastian prediktif.