Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihat Apa itu Amazon Machine Learning.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Parameter Pelatihan
Biasanya, algoritma pembelajaran mesin menerima parameter yang dapat digunakan untuk mengontrol properti tertentu dari proses pelatihan dan model ML yang dihasilkan. Di Amazon Machine Learning, ini disebut parameter pelatihan. Anda dapat mengatur parameter ini menggunakan konsol Amazon, API, atau antarmuka baris perintah (CLI). Jika Anda tidak menyetel parameter apa pun, Amazon ML akan menggunakan nilai default yang diketahui berfungsi dengan baik untuk berbagai tugas pembelajaran mesin.
Anda dapat menentukan nilai untuk parameter pelatihan berikut:
-
Ukuran model maksimum
-
Jumlah maksimum lintasan atas data pelatihan
-
Jenis kocokan
-
Jenis regularisasi
-
Jumlah regularisasi
Di konsol Amazon Amazon, parameter pelatihan ditetapkan secara default. Pengaturan default cukup untuk sebagian besar masalah ML. tetapi Anda dapat memilih nilai lain untuk menyempurnakan kinerja. Parameter pelatihan tertentu lainnya, seperti tingkat pembelajaran, dikonfigurasi untuk Anda berdasarkan data Anda.
Bagian berikut memberikan informasi lebih lanjut tentang parameter pelatihan.
Ukuran Model Maksimum
Ukuran model maksimum adalah ukuran total, dalam satuan byte, pola yang dibuat Amazon MLL selama pelatihan model ML.
Secara default, Amazon ML membuat model 100 MB. Anda dapat menginstruksikan Amazon ML untuk membuat model yang lebih kecil atau lebih besar dengan menentukan ukuran yang berbeda. Untuk berbagai ukuran yang tersedia, lihat Jenis Model ML
Jika Amazon ML tidak dapat menemukan pola yang cukup untuk mengisi ukuran model, itu akan menciptakan model yang lebih kecil. Misalnya, jika Anda menentukan ukuran model maksimum 100 MB, tetapi Amazon ML menemukan pola yang totalnya hanya 50 MB, model yang dihasilkan akan menjadi 50 MB. Jika Amazon ML menemukan lebih banyak pola daripada yang sesuai dengan ukuran yang ditentukan, ini memberlakukan batas maksimum dengan memangkas pola yang paling tidak memengaruhi kualitas model yang dipelajari.
Memilih ukuran model memungkinkan Anda untuk mengontrol trade-off antara kualitas prediksi model dan biaya penggunaan. Model yang lebih kecil dapat menyebabkan Amazon ML menghapus banyak pola agar sesuai dengan batas ukuran maksimum, yang memengaruhi kualitas prediksi. Model yang lebih besar, di sisi lain, lebih mahal untuk meminta prediksi waktu nyata.
catatan
Jika Anda menggunakan model ML untuk menghasilkan prediksi real-time, Anda akan dikenakan biaya reservasi kapasitas kecil yang ditentukan oleh ukuran model. Untuk informasi selengkapnya, lihat Harga untuk Amazon ML.
Kumpulan data input yang lebih besar tidak selalu menghasilkan model yang lebih besar karena model menyimpan pola, bukan data input; jika polanya sedikit dan sederhana, model yang dihasilkan akan kecil. Input data yang memiliki sejumlah besar atribut mentah (kolom input) atau fitur turunan (output dari transformasi data Amazon MLM) kemungkinan akan memiliki lebih banyak pola yang ditemukan dan disimpan selama proses pelatihan. Memilih ukuran model yang tepat untuk data dan masalah Anda sebaiknya didekati dengan beberapa eksperimen. Log pelatihan model Amazon Amazon (yang dapat Anda unduh dari konsol atau melalui API) berisi pesan tentang berapa banyak pemangkasan model (jika ada) yang terjadi selama proses pelatihan, memungkinkan Anda memperkirakan hit-to-prediction kualitas potensial.
Jumlah Maksimum Pass atas Data
Untuk hasil terbaik, Amazon ML mungkin perlu melakukan beberapa kali melewati data Anda untuk menemukan pola. Secara default, Amazon ML membuat 10 lintasan, tetapi Anda dapat mengubah default dengan menyetel angka hingga 100. Amazon ML melacak kualitas pola (konvergensi model) seiring berjalannya waktu, dan secara otomatis menghentikan pelatihan ketika tidak ada lagi titik data atau pola untuk ditemukan. Misalnya, jika Anda mengatur jumlah lintasan ke 20, tetapi Amazon MLmenemukan bahwa tidak ada pola baru yang dapat ditemukan pada akhir 15 lintasan, maka itu akan menghentikan pelatihan pada 15 lintasan.
Secara umum, kumpulan data dengan hanya beberapa pengamatan biasanya memerlukan lebih banyak operan atas data untuk mendapatkan kualitas model yang lebih tinggi. Kumpulan data yang lebih besar sering mengandung banyak titik data serupa, yang menghilangkan kebutuhan akan sejumlah besar lintasan. Dampak memilih lebih banyak data melewati data Anda adalah dua kali lipat: pelatihan model membutuhkan waktu lebih lama, dan biayanya lebih mahal.
Jenis Kocokan untuk Data Pelatihan
Di Amazon ML, Anda harus mengocokkan data pelatihan Anda. Pengocokan mencampur urutan data Anda sehingga algoritma SGD tidak menemukan satu jenis data untuk terlalu banyak pengamatan berturut-turut. Misalnya, jika Anda melatih model ML untuk memprediksi jenis produk, dan data pelatihan Anda mencakup jenis produk film, mainan, dan video game, jika Anda mengurutkan data berdasarkan kolom jenis produk sebelum mengunggahnya, algoritme akan melihat data menurut abjad berdasarkan jenis produk. Algoritma melihat semua data Anda untuk film terlebih dahulu, dan model ML Anda mulai mempelajari pola untuk film. Kemudian, ketika model Anda menemukan data tentang mainan, setiap pembaruan yang dibuat algoritme akan sesuai dengan model dengan jenis produk mainan, bahkan jika pembaruan tersebut menurunkan pola yang sesuai dengan film. Peralihan tiba-tiba dari jenis film ke mainan ini dapat menghasilkan model yang tidak belajar bagaimana memprediksi jenis produk secara akurat.
Anda harus mengacak data pelatihan Anda bahkan jika Anda memilih opsi pemisahan acak saat Anda membagi sumber data input menjadi bagian pelatihan dan evaluasi. Strategi pemisahan acak memilih subset acak dari data untuk setiap sumber data, tetapi tidak mengubah urutan baris dalam sumber data. Untuk informasi selengkapnya tentang membagi data Anda, lihatMemisahkan Data Anda.
Saat Anda membuat model ML menggunakan konsol, Amazon ML secara default akan mengacak data dengan teknik pseudo-random shuffling. Terlepas dari jumlah lintasan yang diminta, Amazon ML mengacak data hanya sekali sebelum melatih model ML. Jika Anda mengacak data Anda sebelum memberikannya ke Amazon ML. dan tidak ingin Amazon ML mengacak data Anda lagi, Anda dapat menyetel tipe Shuffle ke. none
Misalnya, jika Anda mengacak catatan di file.csv secara acak sebelum mengunggahnya ke Amazon S3, gunakan fungsi tersebut dalam kueri SQL MySQL Anda saat membuat sumber data dari Amazon RDS, atau menggunakan rand()
random()
fungsi tersebut dalam kueri Amazon Redshift SQL saat membuat sumber data dari Amazon Redshift, menyetel tipe Shuffle ke tidak akan memengaruhi akurasi prediktif model ML Anda. none
Mengacak data Anda hanya sekali mengurangi waktu proses dan biaya untuk membuat model ML.
penting
Saat Anda membuat model ML menggunakan Amazon ML API, Amazon ML tidak akan mengacak data Anda secara default. Jika Anda menggunakan API alih-alih konsol untuk membuat model ML, kami sangat menyarankan agar Anda mengacak data dengan menyetel sgd.shuffleType
parameternya. auto
Jenis dan Jumlah Regularisasi
Kinerja prediktif model ML kompleks (yang memiliki banyak atribut input) menderita ketika data berisi terlalu banyak pola. Ketika jumlah pola meningkat, begitu juga kemungkinan bahwa model mempelajari artefak data yang tidak disengaja, daripada pola data yang sebenarnya. Dalam kasus seperti itu, model bekerja dengan sangat baik pada data pelatihan, tetapi tidak dapat menggeneralisasi dengan baik pada data baru. Fenomena ini dikenal sebagai overfitting data pelatihan.
Regularisasi membantu mencegah model linier menyesuaikan contoh data pelatihan dengan menghukum nilai bobot ekstrim. Regularisasi L1 mengurangi jumlah fitur yang digunakan dalam model dengan mendorong bobot fitur yang seharusnya memiliki bobot yang sangat kecil menjadi nol. Regularisasi L1 menghasilkan model yang jarang dan mengurangi jumlah kebisingan dalam model. Regularisasi L2 menghasilkan nilai bobot keseluruhan yang lebih kecil, yang menstabilkan bobot ketika ada korelasi tinggi antara fitur. Anda dapat mengontrol jumlah regularisasi L1 atau L2 dengan menggunakan parameter. Regularization amount
Menentukan Regularization
amount
nilai yang sangat besar dapat menyebabkan semua fitur memiliki bobot nol.
Memilih dan menyetel nilai regularisasi optimal adalah subjek aktif dalam penelitian pembelajaran mesin. Anda mungkin akan mendapat manfaat dari memilih regularisasi L2 dalam jumlah moderat, yang merupakan default di konsol Amazon Amazon. Pengguna tingkat lanjut dapat memilih antara tiga jenis regularisasi (tidak ada, L1, atau L2) dan jumlah. Untuk informasi lebih lanjut tentang regularisasi, buka Regularisasi
Parameter Pelatihan: Jenis dan Nilai Default
Tabel berikut mencantumkan parameter pelatihan Amazon Amazon, bersama dengan nilai default dan rentang yang diijinkan untuk masing-masing parameter.
Parameter Pelatihan |
Jenis |
Nilai Default |
Deskripsi |
---|---|---|---|
maks MLModel SizeInBytes |
Bilangan Bulat |
100.000.000 byte (100 MiB) |
Kisaran yang diijinkan: 100.000 (100 KiB) hingga 2.147.483.648 (2 GiB) Tergantung pada data input, ukuran model dapat mempengaruhi kinerja. |
SGD.MaxPasses |
Bilangan Bulat |
10 |
Rentang yang diijinkan: 1-100 |
SGD.shuffleType |
String |
auto |
Nilai yang diijinkan: |
sgd.l1 RegularizationAmount |
Ganda |
0 (Secara default, L1 tidak digunakan) |
Rentang yang diijinkan: 0 hingga MAX_DOUBLE Nilai L1 antara 1E-4 dan 1E-8 telah ditemukan untuk menghasilkan hasil yang baik. Nilai yang lebih besar cenderung menghasilkan model yang tidak terlalu berguna. Anda tidak dapat mengatur L1 dan L2. Anda harus memilih satu atau yang lain. |
sgd.l2 RegularizationAmount |
Ganda |
1E-6 (Secara default, L2 digunakan dengan jumlah regularisasi ini) |
Rentang yang diijinkan: 0 hingga MAX_DOUBLE Nilai L2 antara 1E-2 dan 1E-6 telah ditemukan untuk menghasilkan hasil yang baik. Nilai yang lebih besar cenderung menghasilkan model yang tidak terlalu berguna. Anda tidak dapat mengatur L1 dan L2. Anda harus memilih satu atau yang lain. |