

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Tutorial: Membangun alur kerja pembelajaran end-to-end mesin di Canvas SageMaker
<a name="canvas-end-to-end-machine-learning-workflow"></a>

Tutorial ini memandu Anda melalui alur kerja end-to-end machine learning (ML) menggunakan Amazon SageMaker Canvas. SageMaker Canvas adalah antarmuka tanpa kode visual yang dapat Anda gunakan untuk menyiapkan data dan untuk melatih serta menerapkan model ML. Untuk tutorial, Anda menggunakan dataset taksi NYC untuk melatih model yang memprediksi jumlah tarif untuk perjalanan tertentu. Anda akan mendapatkan pengalaman langsung dengan tugas-tugas utama dari MLM seperti menilai kualitas data dan menangani masalah data, membagi data menjadi set pelatihan dan pengujian, pelatihan dan evaluasi model, membuat prediksi, dan menerapkan model terlatih Anda—semuanya dalam aplikasi Canvas. SageMaker 

**penting**  
Tutorial ini mengasumsikan bahwa Anda atau administrator Anda telah membuat AWS akun. Untuk informasi tentang membuat AWS akun, lihat [Memulai: Apakah Anda AWS pengguna pertama kali?](https://docs.aws.amazon.com/accounts/latest/reference/welcome-first-time-user.html)

## Menyiapkan
<a name="canvas-tutorial-setting-up"></a>

Domain Amazon SageMaker AI adalah tempat terpusat untuk mengelola semua lingkungan dan sumber daya Amazon SageMaker AI Anda. Domain bertindak sebagai batas virtual untuk pekerjaan Anda di SageMaker AI, menyediakan isolasi dan kontrol akses untuk sumber daya pembelajaran mesin (ML) Anda. 

Untuk memulai Amazon SageMaker Canvas, Anda atau administrator Anda harus menavigasi ke konsol SageMaker AI dan membuat domain Amazon SageMaker AI. Domain memiliki sumber daya penyimpanan dan komputasi yang diperlukan bagi Anda untuk menjalankan SageMaker Canvas. Di dalam domain, Anda mengonfigurasi SageMaker Canvas untuk mengakses bucket Amazon S3 dan menerapkan model. Gunakan prosedur berikut untuk mengatur domain cepat dan membuat aplikasi SageMaker Canvas.

**Untuk mengatur SageMaker Canvas**

1. Arahkan ke [konsol SageMaker AI](https://console.aws.amazon.com/sagemaker).

1. Di navigasi sebelah kiri, pilih SageMaker Canvas.

1. Pilih **Buat domain SageMaker AI**.

1. Pilih **Siapkan**. Domain dapat memakan waktu beberapa menit untuk disiapkan.

Prosedur sebelumnya menggunakan pengaturan domain cepat. Anda dapat melakukan pengaturan lanjutan untuk mengontrol semua aspek konfigurasi akun, termasuk izin, integrasi, dan enkripsi. Untuk informasi selengkapnya tentang pengaturan kustom, lihat[Gunakan pengaturan khusus untuk Amazon SageMaker AI](onboard-custom.md).

Secara default, melakukan pengaturan domain cepat memberi Anda izin untuk menerapkan model. Jika Anda memiliki izin khusus yang disiapkan melalui domain standar dan Anda perlu memberikan izin penerapan model secara manual, lihat. [Manajemen izin](canvas-deploy-model.md#canvas-deploy-model-prereqs)

## Penciptaan aliran
<a name="canvas-tutorial-flow-creation"></a>

Amazon SageMaker Canvas adalah platform pembelajaran mesin yang memungkinkan pengguna untuk membangun, melatih, dan menerapkan model pembelajaran mesin tanpa keahlian coding atau pembelajaran mesin yang ekstensif. Salah satu fitur canggih Amazon SageMaker Canvas adalah kemampuan untuk mengimpor dan bekerja dengan kumpulan data besar dari berbagai sumber, seperti Amazon S3.

Untuk tutorial ini, kami menggunakan dataset taksi NYC untuk memprediksi jumlah tarif untuk setiap perjalanan menggunakan aliran data Amazon SageMaker Canvas Data Wrangler. Prosedur berikut menguraikan langkah-langkah untuk mengimpor versi modifikasi dari dataset taksi NYC ke dalam aliran data.

**catatan**  
Untuk pemrosesan yang lebih baik, SageMaker Canvas mengimpor sampel data Anda. Secara default, secara acak sampel 50.000 baris.

**Untuk mengimpor dataset taksi NYC**

1. Dari halaman SageMaker beranda Canvas, pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Pilih **Tabular**.

1. Pilih kotak alat di sebelah sumber data.

1. Pilih **Amazon S3 dari dropdown**.

1. Untuk **titik akhir Input S3, tentukan** `s3://{{amazon-sagemaker-data-wrangler-documentation-artifacts}}/{{canvas-single-file-nyc-taxi-dataset}}.csv`

1. Pilih **Go**.

1. Pilih kotak centang di sebelah kumpulan data.

1. Pilih **Pratinjau data**.

1. Pilih **Simpan**.

## Laporan Kualitas dan Wawasan Data 1 (sampel)
<a name="canvas-tutorial-data-quality-insights-report-1"></a>

Setelah mengimpor kumpulan data ke Amazon SageMaker Canvas, Anda dapat membuat laporan Kualitas Data dan Wawasan pada sampel data. Gunakan untuk memberikan wawasan berharga ke dalam kumpulan data. Laporan tersebut melakukan hal berikut:
+ Menilai kelengkapan dataset
+ Mengidentifikasi nilai dan outlier yang hilang

Ini dapat mengidentifikasi masalah potensial lain yang dapat memengaruhi kinerja model. Ini juga mengevaluasi kekuatan prediktif dari setiap fitur mengenai variabel target, memungkinkan Anda mengidentifikasi fitur yang paling relevan untuk masalah yang Anda coba pecahkan.

Kami dapat menggunakan wawasan dari laporan untuk memprediksi jumlah tarif. Dengan menentukan kolom **Jumlah Harga** sebagai variabel target dan memilih **Regresi** sebagai jenis masalah, laporan akan menganalisis kesesuaian kumpulan data untuk memprediksi nilai kontinu seperti harga tiket. Laporan harus mengungkapkan bahwa fitur seperti **year** dan **hour\_of\_day** memiliki daya prediksi yang rendah untuk variabel target yang dipilih, memberi Anda wawasan berharga.

Gunakan prosedur berikut untuk mendapatkan laporan Kualitas Data dan Wawasan pada sampel 50.000 baris dari kumpulan data.

**Untuk mendapatkan laporan tentang sampel**

1. Pilih **Dapatkan wawasan data** dari jendela pop up di sebelah simpul **Tipe data**.

1. Untuk **nama Analisis**, tentukan nama untuk laporan.

1. Untuk **tipe Masalah**, pilih **Regresi**.

1. Untuk **kolom Target**, pilih **Jumlah tarif**.

1. Pilih **Buat**.

Anda dapat meninjau laporan Kualitas Data dan Wawasan pada sampel data Anda. **Laporan menunjukkan bahwa fitur **tahun** dan **hour\_of\_day** tidak memprediksi variabel target, jumlah Tarif.**

Di bagian atas navigasi, pilih nama aliran data untuk menavigasi kembali ke sana.

## Jatuhkan tahun dan jam sehari
<a name="canvas-tutorial-drop-year-and-hour-of-day"></a>

Kami menggunakan wawasan dari laporan untuk menghapus kolom **tahun** dan **hour\_of\_day** untuk merampingkan ruang fitur dan berpotensi meningkatkan kinerja model.

Amazon SageMaker Canvas menyediakan antarmuka dan alat yang mudah digunakan untuk melakukan transformasi data tersebut.

Gunakan prosedur berikut untuk menghapus kolom **tahun** dan **hour\_of\_day** dari dataset taksi NYC menggunakan alat Data Wrangler di Amazon Canvas. SageMaker 

1. Pilih ikon di sebelah **Tipe data**.

1. Pilih **Tambahkan langkah**.

1. Di bilah pencarian, tulis **kolom Drop**.

1. Pilih **Kelola kolom**.

1. Pilih **Kolom Jatuhkan**.

1. **Agar Kolom jatuh**, pilih kolom **tahun** dan **hour\_of\_day**.

1. Pilih **Pratinjau** untuk melihat bagaimana transformasi Anda mengubah data Anda.

1. Pilih **Tambahkan**.

Anda dapat menggunakan prosedur sebelumnya sebagai dasar untuk menambahkan semua transformasi lainnya di Canvas. SageMaker 

## Laporan Kualitas dan Wawasan Data 2 (dataset lengkap)
<a name="canvas-tutorial-data-quality-insights-report-2"></a>

Untuk laporan wawasan sebelumnya, kami menggunakan sampel dataset taksi NYC. Untuk laporan kedua kami, kami menjalankan analisis komprehensif pada seluruh kumpulan data untuk mengidentifikasi potensi masalah yang memengaruhi kinerja model.

Gunakan prosedur berikut untuk membuat laporan Kualitas Data dan Wawasan pada seluruh kumpulan data.

**Untuk mendapatkan laporan tentang seluruh dataset**

1. Pilih ikon di sebelah simpul **kolom Drop**.

1. Pilih **Dapatkan wawasan data**.

1. Untuk **nama Analisis**, tentukan nama untuk laporan.

1. Untuk **tipe Masalah**, pilih **Regresi**.

1. Untuk **kolom Target**, pilih **Jumlah tarif**.

1. Untuk **ukuran Data**, pilih **Set data lengkap**.

1. Pilih **Buat**.

Berikut ini adalah gambar dari laporan wawasan:

![Baris duplikat, target miring, dan skor model cepat yang sangat rendah terdaftar sebagai InsightSP](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/canvas-tutorial-dqi-insights.png)


Ini menunjukkan masalah-masalah berikut:
+ Baris duplikat
+ Target miring

Baris duplikat dapat menyebabkan kebocoran data, di mana model terkena data yang sama selama pelatihan dan pengujian. Mereka dapat menyebabkan metrik kinerja yang terlalu optimis. Menghapus baris duplikat memastikan bahwa model dilatih pada instance unik, mengurangi risiko kebocoran data dan meningkatkan kemampuan model untuk menggeneralisasi.

Distribusi variabel target miring, dalam hal ini, kolom **jumlah Tarif**, dapat menyebabkan kelas tidak seimbang, di mana model dapat menjadi bias terhadap kelas mayoritas. Hal ini dapat menyebabkan kinerja yang buruk pada kelas minoritas, yang sangat bermasalah dalam skenario di mana memprediksi secara akurat contoh langka atau kurang terwakili adalah penting.

## Mengatasi masalah kualitas data
<a name="canvas-tutorial-addressing-data-quality-issues"></a>

Untuk mengatasi masalah ini dan menyiapkan kumpulan data untuk pemodelan, Anda dapat mencari transformasi berikut dan menerapkannya:

1. Jatuhkan duplikat menggunakan transformasi **Kelola baris**.

1. **Tangani outlier** di kolom **Jumlah tarif** menggunakan outlier **numerik deviasi standar yang kuat**.

1. **Tangani outlier** di kolom **Jarak perjalanan** dan **durasi perjalanan** menggunakan outlier **numerik deviasi standar**.

1. Gunakan **kategori Encode** untuk menyandikan kolom **id kode Rate**, **Jenis pembayaran**, **bendera Ekstra, dan bendera** **Toll** sebagai float.

Jika Anda tidak yakin tentang cara menerapkan transformasi, lihat [Jatuhkan tahun dan jam sehari](#canvas-tutorial-drop-year-and-hour-of-day)

Dengan mengatasi masalah kualitas data ini dan menerapkan transformasi yang sesuai, Anda dapat meningkatkan kesesuaian kumpulan data untuk pemodelan.

## Memverifikasi kualitas data dan akurasi model yang cepat
<a name="canvas-tutorial-verifying-data-quality-and-quick-model-accuracy"></a>

Setelah menerapkan transformasi untuk mengatasi masalah kualitas data, seperti menghapus baris duplikat, kami membuat laporan Kualitas dan Wawasan Data akhir kami. Laporan ini membantu memverifikasi bahwa transformasi yang diterapkan menyelesaikan masalah dan bahwa kumpulan data sekarang dalam keadaan yang sesuai untuk pemodelan.

Saat meninjau laporan Kualitas Data dan Wawasan akhir, Anda seharusnya tidak melihat masalah kualitas data utama yang ditandai. Laporan tersebut harus menunjukkan bahwa:
+ Variabel target tidak lagi miring
+ Tidak ada outlier atau baris duplikat

Selain itu, laporan harus memberikan skor model cepat berdasarkan model dasar yang dilatih pada kumpulan data yang diubah. Skor ini berfungsi sebagai indikator awal dari potensi akurasi dan kinerja model.

Gunakan prosedur berikut untuk membuat laporan Kualitas dan Wawasan Data.

**Untuk membuat laporan Kualitas Data dan Wawasan**

1. Pilih ikon di sebelah simpul **kolom Drop**.

1. Pilih **Dapatkan wawasan data**.

1. Untuk **nama Analisis**, tentukan nama untuk laporan.

1. Untuk **tipe Masalah**, pilih **Regresi**.

1. Untuk **kolom Target**, pilih **Jumlah tarif**.

1. Untuk **ukuran Data**, pilih **Set data lengkap**.

1. Pilih **Buat**.

## Pisahkan data menjadi set pelatihan dan tes
<a name="canvas-tutorial-split-data"></a>

Untuk melatih model dan mengevaluasi kinerjanya, kami menggunakan transformasi **data Split** untuk membagi data menjadi set pelatihan dan pengujian.

Secara default, SageMaker Canvas menggunakan Randomized split, tetapi Anda juga dapat menggunakan jenis split berikut:
+ Memesan
+ Bertingkat
+ Pisahkan dengan kunci

Anda dapat mengubah **persentase Split** atau menambahkan split.

Untuk tutorial ini, gunakan semua pengaturan default di split. Anda perlu mengklik dua kali pada dataset untuk melihat namanya. Dataset pelatihan memiliki nama **Dataset (Train)**.

Di sebelah node **encode Ordinal** menerapkan transformasi **data Split**.

## Model kereta
<a name="canvas-tutorial-train-model"></a>

Setelah Anda membagi data Anda, Anda dapat melatih model. Model ini belajar dari pola dalam data Anda. Anda dapat menggunakannya untuk membuat prediksi atau mengungkap wawasan.

SageMaker Canvas memiliki build cepat dan build standar. Gunakan build standar untuk melatih model berkinerja terbaik pada data Anda.

Sebelum Anda mulai melatih model, Anda harus terlebih dahulu mengekspor dataset pelatihan sebagai dataset SageMaker Canvas.

**Untuk mengekspor dataset Anda**

1. Di sebelah node untuk dataset pelatihan, pilih ikon dan pilih **Ekspor**.

1. Pilih **Dataset SageMaker Kanvas**.

1. Pilih **Ekspor** untuk mengekspor kumpulan data.

Setelah membuat kumpulan data, Anda dapat melatih model pada dataset SageMaker Canvas yang telah Anda buat. Untuk informasi tentang melatih model, lihat[Membangun model prediksi numerik atau kategoris kustom](canvas-build-model-how-to.md#canvas-build-model-numeric-categorical).

## Mengevaluasi model dan membuat prediksi
<a name="canvas-tutorial-evaluate-model-and-make-predictions"></a>

Setelah melatih model pembelajaran mesin Anda, penting untuk mengevaluasi kinerjanya untuk memastikannya memenuhi kebutuhan Anda dan berkinerja baik pada data yang tidak terlihat. Amazon SageMaker Canvas menyediakan antarmuka yang mudah digunakan untuk menilai keakuratan model Anda, meninjau prediksinya, dan mendapatkan wawasan tentang kekuatan dan kelemahannya. Anda dapat menggunakan wawasan untuk membuat keputusan berdasarkan informasi tentang penerapannya dan area potensial untuk perbaikan.

Gunakan prosedur berikut untuk mengevaluasi model sebelum Anda menerapkannya.

**Untuk mengevaluasi model**

1. Pilih **Model Saya**.

1. Pilih model yang telah Anda buat.

1. Di bawah **Versi**, pilih versi yang sesuai dengan model.

Anda sekarang dapat melihat metrik evaluasi model.

Setelah Anda mengevaluasi model, Anda dapat membuat prediksi pada data baru. Kami menggunakan dataset pengujian yang telah kami buat.

Untuk menggunakan dataset pengujian untuk prediksi, kita perlu mengubahnya menjadi dataset SageMaker Canvas. Dataset SageMaker Canvas dalam format yang dapat ditafsirkan oleh model.

Gunakan prosedur berikut untuk membuat dataset SageMaker Canvas dari dataset pengujian.

**Untuk membuat dataset SageMaker Canvas**

1. Di sebelah **Dataset (Test)** dataset, pilih ikon radio.

1. Pilih **Ekspor**.

1. Pilih **Dataset SageMaker Kanvas**.

1. Untuk **nama Dataset**, tentukan nama untuk kumpulan data.

1. Pilih **Ekspor**.

Gunakan prosedur berikut untuk membuat prediksi. Ini mengasumsikan bahwa Anda masih berada di halaman **Analisis**.

**Untuk membuat prediksi pada dataset uji**

1. Pilih **Prediksi**.

1. Pilih **Manual**.

1. Pilih kumpulan data yang telah Anda ekspor.

1. Pilih **Hasilkan prediksi.**

1. Setelah SageMaker Canvas selesai menghasilkan prediksi, pilih ikon di sebelah kanan kumpulan data.

1. Pilih **Pratinjau** untuk melihat prediksi.

## Menyebarkan model
<a name="canvas-tutorial-deploy-a-model"></a>

Setelah mengevaluasi model, Anda dapat menerapkannya ke titik akhir. Anda dapat mengirimkan permintaan ke titik akhir untuk mendapatkan prediksi.

Gunakan prosedur berikut untuk menerapkan model. Ini mengasumsikan bahwa Anda masih berada di halaman **Predict**.

**Untuk menyebarkan model**

1. Pilih **Deploy**.

1. Pilih **Buat penerapan**.

1. Pilih **Deploy**.

## Membersihkan
<a name="canvas-tutorial-cleaning-up"></a>

Anda telah berhasil menyelesaikan tutorial. Untuk menghindari biaya tambahan, hapus sumber daya yang tidak Anda gunakan.

Gunakan prosedur berikut untuk menghapus titik akhir yang Anda buat. Ini mengasumsikan bahwa Anda masih berada di halaman **Deploy**.

**Untuk menghapus titik akhir**

1. Pilih tombol radio di sebelah kanan penyebaran Anda.

1. Pilih **Hapus penyebaran**.

1. Pilih **Hapus**.

Setelah menghapus penerapan, hapus kumpulan data yang telah Anda buat di dalam Canvas. SageMaker Gunakan prosedur berikut untuk menghapus kumpulan data.

**Untuk menghapus dataset**

1. Pilih **Datasets** di navigasi sebelah kiri.

1. Pilih kumpulan data yang telah Anda analisis dan kumpulan data sintetis yang digunakan untuk prediksi.

1. Pilih **Hapus**.

Untuk menghindari biaya tambahan, Anda harus keluar dari Canvas. SageMaker Untuk informasi selengkapnya, lihat [Keluar dari Amazon SageMaker Canvas](canvas-log-out.md).