Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihat Apa itu Amazon Machine Learning.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Penataan Ulang Data
Fungsionalitas penataan ulang data memungkinkan Anda membuat sumber data yang hanya didasarkan pada sebagian data input yang ditunjukkannya. Misalnya, saat Anda membuat Model ML menggunakan wizard Buat Model ML di konsol Amazon, dan memilih opsi evaluasi default, Amazon ML secara otomatis menyimpan 30% data Anda untuk evaluasi model ML, dan menggunakan 70% lainnya untuk pelatihan. Fungsionalitas ini diaktifkan oleh fitur Penataan Ulang Data Amazon ML.
Jika Anda menggunakan Amazon MLAPI untuk membuat sumber data, Anda dapat menentukan bagian mana dari data input sumber data baru yang akan didasarkan. Anda melakukan ini dengan meneruskan instruksi dalam DataRearrangement parameter keCreateDataSourceFromS3, CreateDataSourceFromRedshift atau CreateDataSourceFromRDS APIs. Isi DataRearrangement string adalah string JSON yang berisi lokasi awal dan akhir data Anda, dinyatakan sebagai persentase, tanda pelengkap, dan strategi pemisahan. Misalnya, DataRearrangement string berikut menentukan bahwa 70% pertama dari data akan digunakan untuk membuat sumber data:
{ "splitting": { "percentBegin": 0, "percentEnd": 70, "complement": false, "strategy": "sequential" } }
DataRearrangement Parameter
Untuk mengubah cara Amazon ML membuat sumber data, gunakan parameter ikuti.
- PercentBegin (Opsional)
-
Gunakan
percentBeginuntuk menunjukkan di mana data untuk sumber data dimulai. Jika Anda tidak menyertakanpercentBegindanpercentEnd, Amazon ML menyertakan semua data saat membuat sumber data.Nilai yang valid adalah
0untuk100, inklusif. - PercentEnd (Opsional)
-
Gunakan
percentEnduntuk menunjukkan di mana data untuk sumber data berakhir. Jika Anda tidak menyertakanpercentBegindanpercentEnd, Amazon ML menyertakan semua data saat membuat sumber data.Nilai yang valid adalah
0untuk100, inklusif. - Pelengkap (Opsional)
-
complementParameter memberitahu Amazon MLuntuk menggunakan data yang tidak termasuk dalam rentangpercentBeginpercentEnduntuk membuat sumber data.complementParameter ini berguna jika Anda perlu membuat sumber data pelengkap untuk pelatihan dan evaluasi. Untuk membuat sumber data komplementer, gunakan nilai yang sama untukpercentBegindanpercentEnd, bersama dengan parameternya.complementMisalnya, dua sumber data berikut tidak berbagi data apa pun, dan dapat digunakan untuk melatih dan mengevaluasi model. Sumber data pertama memiliki 25 persen data, dan yang kedua memiliki 75 persen data.
Sumber data untuk evaluasi:
{ "splitting":{ "percentBegin":0, "percentEnd":25 } }Sumber data untuk pelatihan:
{ "splitting":{ "percentBegin":0, "percentEnd":25, "complement":"true" } }Nilai yang valid adalah
truedanfalse. - Strategi (Opsional)
-
Untuk mengubah cara Amazon ML membagi data untuk sumber data, gunakan parameternya.
strategyNilai default untuk
strategyparameter adalahsequential, artinya Amazon MLmengambil semua catatan data antarapercentBegindanpercentEndparameter untuk sumber data, dalam urutan bahwa catatan muncul dalam data inputDua
DataRearrangementbaris berikut adalah contoh sumber data pelatihan dan evaluasi yang diurutkan secara berurutan:Sumber data untuk evaluasi:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}Sumber data untuk pelatihan:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}Untuk membuat sumber data dari pemilihan data secara acak, atur
strategyparameter kerandomdan berikan string yang digunakan sebagai nilai benih untuk pemisahan data acak (misalnya, Anda dapat menggunakan jalur S3 ke data Anda sebagai string benih acak). Jika Anda memilih strategi pemisahan acak, Amazon ML menetapkan setiap baris data nomor pseudo-acak, dan kemudian memilih baris yang memiliki nomor yang ditetapkan antara dan.percentBeginpercentEndNomor pseudo-acak ditetapkan menggunakan byte offset sebagai benih, sehingga mengubah data menghasilkan pemisahan yang berbeda. Setiap pemesanan yang ada dipertahankan. Strategi pemisahan acak memastikan bahwa variabel dalam data pelatihan dan evaluasi didistribusikan dengan cara yang sama. Ini berguna dalam kasus di mana data input mungkin memiliki urutan pengurutan implisit, yang jika tidak akan menghasilkan sumber data pelatihan dan evaluasi yang berisi catatan data yang tidak serupa.Dua
DataRearrangementbaris berikut adalah contoh sumber data pelatihan dan evaluasi yang tidak diurutkan secara berurutan:Sumber data untuk evaluasi:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } } }Sumber data untuk pelatihan:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } "complement":"true" } }Nilai yang valid adalah
sequentialdanrandom. - (Opsional) Strategi: RandomSeed
-
Amazon ML menggunakan RandomSeed untuk membagi data. Benih default untuk API adalah string kosong. Untuk menentukan benih untuk strategi pemisahan acak, berikan string. Untuk informasi selengkapnya tentang benih acak, lihat Memisahkan Data Anda Secara Acak di Panduan Pengembang Amazon Machine Learning.
Untuk contoh kode yang menunjukkan cara menggunakan validasi silang dengan Amazon, buka Sampel Machine Learning Github