Memahami metrik evaluasi Bandingkan kinerja di seluruh jenis kumpulan data Pemilihan model

Tafsirkan hasil Anda

Analisis metrik evaluasi dari perbandingan model klasifikasi teks Anda untuk membuat keputusan berbasis data untuk penerapan produksi.

Memahami metrik evaluasi

Evaluasi menyediakan beberapa metrik utama untuk setiap model di semua kumpulan data:

Akurasi

Mengukur persentase prediksi yang benar dan bekerja paling baik untuk kumpulan data yang seimbang. Namun, itu bisa menyesatkan dengan data yang tidak seimbang dan mungkin menunjukkan hasil artifial tinggi ketika satu kelas mendominasi.

presisi

Mengevaluasi seberapa baik model menghindari positif palsu dengan mengukur berapa persentase prediksi positif yang benar. Metrik ini berkisar dari 0,0 hingga 1,0 (lebih tinggi lebih baik) dan menjadi kritis ketika positif palsu mahal.

Ingat

Menilai seberapa baik model menangkap semua kasus positif dengan mengukur berapa persentase positif aktual yang ditemukan. Ini berkisar dari 0,0 hingga 1,0 (lebih tinggi lebih baik) dan menjadi kritis ketika kehilangan positif mahal.

Skor F1

Memberikan rata-rata harmonik presisi dan ingatan, menyeimbangkan kedua metrik menjadi skor tunggal yang berkisar antara 0,0 hingga 1,0 (lebih tinggi lebih baik).

Koefisien Korelasi Matthews (PKS)

Mengukur kualitas klasifikasi biner secara keseluruhan dan berfungsi sebagai metrik terbaik untuk data yang tidak seimbang. Ini berkisar dari -1.0 hingga 1.0, di mana nilai yang lebih tinggi menunjukkan kinerja yang lebih baik dan 0 mewakili tebakan acak.

Area Di Bawah Karakteristik Operasi Penerima Kurva

Mengevaluasi seberapa baik model membedakan antara kelas. Ini berkisar dari 0,0 hingga 1,0, di mana 1,0 mewakili klasifikasi sempurna dan 0,5 mewakili tebakan acak.

Waktu inferensi rata-rata

Mengukur kecepatan prediksi, yang menjadi penting untuk aplikasi real-time. Pertimbangkan kecepatan dan konsistensi saat mengevaluasi metrik ini.

catatan

Jangan hanya mengandalkan akurasi untuk pemilihan model. Untuk kumpulan data yang tidak seimbang, presisi, penarikan, dan PKS memberikan indikator kinerja dunia nyata yang lebih andal.

Bandingkan kinerja di seluruh jenis kumpulan data

Dataset seimbang menunjukkan seberapa baik kinerja model Anda dalam kondisi ideal dengan representasi yang sama dari contoh positif dan negatif. Kinerja yang kuat di sini menunjukkan model telah mempelajari pola klasifikasi teks dasar.

Dataset miring mengungkapkan bagaimana model menangani ketidakseimbangan kelas dunia nyata, yang umum dalam skenario produksi.

Kumpulan data yang menantang menguji ketahanan model pada kasus ambigu atau tepi yang mungkin muncul dalam produksi.

Pemilihan model

Gunakan pendekatan sistematis ini untuk memilih model optimal untuk kasus penggunaan spesifik Anda.

Tentukan prioritas bisnis Anda

Sebelum memilih model, tentukan faktor kinerja mana yang paling penting untuk kasus penggunaan Anda.

Identifikasi persyaratan akurasi Anda dan ambang batas kinerja minimum yang dapat diterima.
Tentukan batasan latensi Anda, termasuk apakah Anda memerlukan pemrosesan real-time (<100ms) atau batch.
Tetapkan pertimbangan biaya dan anggaran Anda untuk inferensi dan penskalaan.
Analisis karakteristik data Anda untuk memahami apakah data produksi Anda seimbang, miring, atau sangat bervariasi.

Kapan memilih setiap model

Berdasarkan hasil evaluasi Anda, pilih model yang paling sesuai dengan kasus penggunaan Anda:

Pilih DistiLbert ketika Anda membutuhkan inferensi yang lebih cepat dengan akurasi yang baik, seperti analisis sentimen waktu nyata dalam chatbot layanan pelanggan, sistem moderasi konten, atau aplikasi di mana waktu respons di bawah 100 md sangat penting.
Pilih BERT ketika akurasi maksimum lebih penting daripada kecepatan, seperti klasifikasi dokumen hukum, analisis teks medis, atau aplikasi kepatuhan di mana presisi adalah yang terpenting dan pemrosesan batch dapat diterima.

Prioritaskan kumpulan data evaluasi Anda

Fokus pada kumpulan data yang paling mewakili kasus penggunaan dunia nyata Anda.

Berikan bobot lebih pada kumpulan data yang paling mirip dengan data dunia nyata Anda.
Pertimbangkan pentingnya kasus tepi dalam aplikasi Anda dan prioritaskan kinerja kumpulan data yang menantang.
Seimbangkan optimasi di beberapa skenario daripada berfokus hanya pada satu jenis kumpulan data.

Bandingkan hasil evaluasi Anda dengan prioritas ini untuk memilih model yang paling menyeimbangkan akurasi, kecepatan, dan persyaratan biaya Anda.

Sekarang setelah Anda memilih model pilihan Anda, Anda siap untuk penerapan produksi. Lanjutkan ke Terapkan model Anda dalam skala besar.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mengevaluasi dan membandingkan kinerja model

Terapkan model Anda dalam skala besar