Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Tafsirkan hasil Anda
Analisis metrik evaluasi dari perbandingan model klasifikasi teks Anda untuk membuat keputusan berbasis data untuk penerapan produksi.
Memahami metrik evaluasi
Evaluasi menyediakan beberapa metrik utama untuk setiap model di semua kumpulan data:
Akurasi
Mengukur persentase prediksi yang benar dan bekerja paling baik untuk kumpulan data yang seimbang. Namun, itu bisa menyesatkan dengan data yang tidak seimbang dan mungkin menunjukkan hasil artifial tinggi ketika satu kelas mendominasi.
presisi
Mengevaluasi seberapa baik model menghindari positif palsu dengan mengukur berapa persentase prediksi positif yang benar. Metrik ini berkisar dari 0,0 hingga 1,0 (lebih tinggi lebih baik) dan menjadi kritis ketika positif palsu mahal.
Ingat
Menilai seberapa baik model menangkap semua kasus positif dengan mengukur berapa persentase positif aktual yang ditemukan. Ini berkisar dari 0,0 hingga 1,0 (lebih tinggi lebih baik) dan menjadi kritis ketika kehilangan positif mahal.
Skor F1
Memberikan rata-rata harmonik presisi dan ingatan, menyeimbangkan kedua metrik menjadi skor tunggal yang berkisar antara 0,0 hingga 1,0 (lebih tinggi lebih baik).
Koefisien Korelasi Matthews (PKS)
Mengukur kualitas klasifikasi biner secara keseluruhan dan berfungsi sebagai metrik terbaik untuk data yang tidak seimbang. Ini berkisar dari -1.0 hingga 1.0, di mana nilai yang lebih tinggi menunjukkan kinerja yang lebih baik dan 0 mewakili tebakan acak.
Area Di Bawah Karakteristik Operasi Penerima Kurva
Mengevaluasi seberapa baik model membedakan antara kelas. Ini berkisar dari 0,0 hingga 1,0, di mana 1,0 mewakili klasifikasi sempurna dan 0,5 mewakili tebakan acak.
Waktu inferensi rata-rata
Mengukur kecepatan prediksi, yang menjadi penting untuk aplikasi real-time. Pertimbangkan kecepatan dan konsistensi saat mengevaluasi metrik ini.
catatan
Jangan hanya mengandalkan akurasi untuk pemilihan model. Untuk kumpulan data yang tidak seimbang, presisi, penarikan, dan PKS memberikan indikator kinerja dunia nyata yang lebih andal.
Bandingkan kinerja di seluruh jenis kumpulan data
Dataset seimbang menunjukkan seberapa baik kinerja model Anda dalam kondisi ideal dengan representasi yang sama dari contoh positif dan negatif. Kinerja yang kuat di sini menunjukkan model telah mempelajari pola klasifikasi teks dasar.
Dataset miring mengungkapkan bagaimana model menangani ketidakseimbangan kelas dunia nyata, yang umum dalam skenario produksi.
Kumpulan data yang menantang menguji ketahanan model pada kasus ambigu atau tepi yang mungkin muncul dalam produksi.
Pemilihan model
Gunakan pendekatan sistematis ini untuk memilih model optimal untuk kasus penggunaan spesifik Anda.
Tentukan prioritas bisnis Anda
Sebelum memilih model, tentukan faktor kinerja mana yang paling penting untuk kasus penggunaan Anda.
Identifikasi persyaratan akurasi Anda dan ambang batas kinerja minimum yang dapat diterima.
Tentukan batasan latensi Anda, termasuk apakah Anda memerlukan pemrosesan real-time (<100ms) atau batch.
Tetapkan pertimbangan biaya dan anggaran Anda untuk inferensi dan penskalaan.
Analisis karakteristik data Anda untuk memahami apakah data produksi Anda seimbang, miring, atau sangat bervariasi.
Kapan memilih setiap model
Berdasarkan hasil evaluasi Anda, pilih model yang paling sesuai dengan kasus penggunaan Anda:
Pilih DistiLbert ketika Anda membutuhkan inferensi yang lebih cepat dengan akurasi yang baik, seperti analisis sentimen waktu nyata dalam chatbot layanan pelanggan, sistem moderasi konten, atau aplikasi di mana waktu respons di bawah 100 md sangat penting.
Pilih BERT ketika akurasi maksimum lebih penting daripada kecepatan, seperti klasifikasi dokumen hukum, analisis teks medis, atau aplikasi kepatuhan di mana presisi adalah yang terpenting dan pemrosesan batch dapat diterima.
Prioritaskan kumpulan data evaluasi Anda
Fokus pada kumpulan data yang paling mewakili kasus penggunaan dunia nyata Anda.
Berikan bobot lebih pada kumpulan data yang paling mirip dengan data dunia nyata Anda.
Pertimbangkan pentingnya kasus tepi dalam aplikasi Anda dan prioritaskan kinerja kumpulan data yang menantang.
Seimbangkan optimasi di beberapa skenario daripada berfokus hanya pada satu jenis kumpulan data.
Bandingkan hasil evaluasi Anda dengan prioritas ini untuk memilih model yang paling menyeimbangkan akurasi, kecepatan, dan persyaratan biaya Anda.
Sekarang setelah Anda memilih model pilihan Anda, Anda siap untuk penerapan produksi. Lanjutkan ke Terapkan model Anda dalam skala besar.