Memisahkan Data menjadi Data Pelatihan dan Evaluasi - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihat Apa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memisahkan Data menjadi Data Pelatihan dan Evaluasi

Tujuan mendasar dari ML adalah untuk menggeneralisasi di luar instance data yang digunakan untuk melatih model. Kami ingin mengevaluasi model untuk memperkirakan kualitas generalisasi polanya untuk data yang belum dilatih model. Namun, karena instance future memiliki nilai target yang tidak diketahui dan kami tidak dapat memeriksa keakuratan prediksi kami untuk instance future sekarang, kami perlu menggunakan beberapa data yang sudah kami ketahui jawabannya sebagai proxy untuk data future. Mengevaluasi model dengan data yang sama yang digunakan untuk pelatihan tidak berguna, karena memberi penghargaan kepada model yang dapat “mengingat” data pelatihan, sebagai lawan dari generalisasi darinya.

Strategi umum adalah mengambil semua data berlabel yang tersedia, dan membaginya menjadi subset pelatihan dan evaluasi, biasanya dengan rasio 70-80 persen untuk pelatihan dan 20-30 persen untuk evaluasi. Sistem ML menggunakan data pelatihan untuk melatih model untuk melihat pola, dan menggunakan data evaluasi untuk mengevaluasi kualitas prediktif dari model terlatih. Sistem ML mengevaluasi kinerja prediktif dengan membandingkan prediksi pada kumpulan data evaluasi dengan nilai sebenarnya (dikenal sebagai kebenaran dasar) menggunakan berbagai metrik. Biasanya, Anda menggunakan model “terbaik” pada subset evaluasi untuk membuat prediksi pada instans masa depan yang Anda tidak tahu jawaban targetnya.

Amazon ML membagi data yang dikirim untuk melatih model melalui konsol Amazon ML menjadi 70 persen untuk pelatihan dan 30 persen untuk evaluasi. Secara default, Amazon ML menggunakan 70 persen pertama dari data input dalam urutan yang muncul dalam data sumber untuk sumber data pelatihan dan 30 persen sisanya dari data untuk sumber data evaluasi. Amazon ML juga memungkinkan Anda memilih 70 persen data sumber acak untuk pelatihan alih-alih menggunakan 70 persen pertama, dan menggunakan pelengkap subset acak ini untuk evaluasi. Anda dapat menggunakan Amazon ML APIs untuk menentukan rasio pemisahan kustom dan untuk memberikan data pelatihan dan evaluasi yang dibagi di luar Amazon ML. Amazon ML juga menyediakan strategi untuk membagi data Anda. Untuk informasi lebih lanjut tentang strategi pemisahan, lihatMemisahkan Data Anda.