Lakukan analitik lanjutan menggunakan Amazon Redshift ML - AWS Prescriptive Guidance

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Lakukan analitik lanjutan menggunakan Amazon Redshift ML

Po Hong dan Chyanna Antonio, Amazon Web Services

Ringkasan

Di Amazon Web Services (AWS) Cloud, Anda dapat menggunakan machine learning Amazon Redshift (Amazon Redshift ML) untuk melakukan analitik ML pada data yang disimpan di kluster Amazon Redshift atau di Amazon Simple Storage Service (Amazon S3). Amazon Redshift MLmendukung pembelajaran yang diawasi, yang biasanya digunakan untuk analitik tingkat lanjut. Kasus penggunaan untuk Amazon Redshift MLmencakup peramalan pendapatan, deteksi penipuan kartu kredit, dan nilai seumur hidup pelanggan (CLV) atau prediksi churn pelanggan.

Amazon Redshift ML memudahkan pengguna database untuk membuat, melatih, dan menerapkan model ML dengan menggunakan perintah SQL standar. Amazon Redshift ML menggunakan Amazon SageMaker Autopilot untuk secara otomatis melatih dan menyetel model ML terbaik untuk klasifikasi atau regresi berdasarkan data Anda, sementara Anda mempertahankan kontrol dan visibilitas.

Semua interaksi antara Amazon Redshift, Amazon S3, dan Amazon diabstraksikan dan SageMaker diotomatisasi. Setelah model ML dilatih dan digunakan, model ini akan tersedia sebagai fungsi yang ditentukan pengguna (UDF) di Amazon Redshift dan dapat digunakan dalam kueri SQL.  

Pola ini melengkapi model Create, train, dan deploy ML di Amazon Redshift menggunakan SQL dengan Amazon Redshift MLdari AWS Blog, dan Build, train, dan deploy model ML dengan tutorial SageMaker Amazon dari Getting Started Resource Center.

Prasyarat dan batasan

Prasyarat

  • Akun AWS yang aktif

  • Data yang ada di tabel Amazon Redshift

Keterampilan

  • Keakraban dengan istilah dan konsep yang digunakan oleh Amazon Redshift ML, termasuk pembelajaran mesin, pelatihan, dan prediksi. Untuk informasi selengkapnya tentang hal ini, lihat Melatih model ML dalam dokumentasi Amazon Machine Learning (Amazon ML).

  • Pengalaman dengan penyiapan pengguna Amazon Redshift, manajemen akses, dan sintaks SQL standar. Untuk informasi selengkapnya tentang ini, lihat Memulai Amazon Redshift di dokumentasi Amazon Redshift.

  • Pengetahuan dan pengalaman dengan Amazon S3 dan AWS Identity and Access Management (IAM). 

  • Pengalaman menjalankan perintah di AWS Command Line Interface (AWS CLI) juga bermanfaat tetapi tidak diperlukan.

Batasan

  • Cluster Amazon Redshift dan bucket S3 harus berada di Wilayah AWS yang sama.

  • Pendekatan pola ini hanya mendukung model pembelajaran yang diawasi seperti regresi, klasifikasi biner, dan klasifikasi multikelas. 

Arsitektur

Alur kerja menunjukkan cara kerja SageMaker Amazon Redshift ML untuk membangun, melatih, dan menerapkan model ML.

Langkah-langkah berikut menjelaskan cara kerja Amazon Redshift ML SageMaker untuk membangun, melatih, dan menerapkan model ML: 

  1. Amazon Redshift mengekspor data pelatihan ke bucket S3.

  2. SageMaker Autopilot secara otomatis memproses data pelatihan.

  3. Setelah CREATE MODEL pernyataan dipanggil, Amazon Redshift ML SageMaker digunakan untuk pelatihan.

  4. SageMaker Autopilot mencari dan merekomendasikan algoritma ML dan parameter hiper optimal yang mengoptimalkan metrik evaluasi.

  5. Amazon Redshift ML mendaftarkan model keluaran keluaran sebagai fungsi SQL di cluster Amazon Redshift.

  6. Fungsi model ML dapat digunakan dalam pernyataan SQL. 

Tumpukan teknologi

  • Amazon Redshift

  • SageMaker

  • Amazon S3

Alat

  • Amazon Redshift — Amazon Redshift adalah layanan pergudangan data tingkat perusahaan, skala petabyte, dan terkelola sepenuhnya.

  • Amazon Redshift ML — Amazon Redshift machine learning (Amazon Redshift ML) adalah layanan berbasis cloud yang kuat yang memudahkan analis dan ilmuwan data dari semua tingkat keahlian untuk menggunakan teknologi ML.

  • Amazon S3 - Amazon Simple Storage Service (Amazon S3) Simple Storage Service adalah penyimpanan untuk internet. 

  • Amazon SageMaker - SageMaker adalah layanan ML yang dikelola sepenuhnya. 

  • Amazon SageMaker Autopilot — SageMaker Autopilot adalah kumpulan fitur yang mengotomatiskan tugas-tugas utama dari proses pembelajaran mesin otomatis (AutoML).

Kode

Anda dapat membuat model ML yang diawasi di Amazon Redshift dengan menggunakan kode berikut:

"CREATE MODEL customer_churn_auto_model FROM (SELECT state, account_length, area_code, total_charge/account_length AS average_daily_spend, cust_serv_calls/account_length AS average_daily_cases, churn FROM customer_activity WHERE record_date < '2020-01-01' ) TARGET churn FUNCTION ml_fn_customer_churn_auto IAM_ROLE 'arn:aws:iam::XXXXXXXXXXXX:role/Redshift-ML' SETTINGS ( S3_BUCKET 'your-bucket' );")
catatan

SELECTStatus dapat merujuk ke tabel reguler Amazon Redshift, tabel eksternal Amazon Redshift Spectrum, atau keduanya.

Epik

TugasDeskripsiKeterampilan yang dibutuhkan

Siapkan kumpulan data pelatihan dan uji.

Masuk ke AWS Management Console dan buka SageMaker konsol Amazon. Ikuti instruksi dari tutorial Build, train, dan deploy model machine learning untuk membuat file.csv atau Apache Parquet yang memiliki kolom label (pelatihan yang diawasi) dan tanpa header. 

catatan

Kami menyarankan Anda mengacak dan membagi kumpulan data mentah menjadi satu set pelatihan untuk pelatihan model (70 persen) dan satu set pengujian untuk evaluasi kinerja model (30 persen).

Ilmuwan data
TugasDeskripsiKeterampilan yang dibutuhkan

Buat dan konfigurasikan cluster Amazon Redshift.

Di konsol Amazon Redshift, buat cluster sesuai dengan kebutuhan Anda. Untuk informasi selengkapnya tentang ini, lihat Membuat klaster di dokumentasi Amazon Redshift.  

penting

Cluster Amazon Redshift harus dibuat dengan jalur pemeliharaan. SQL_PREVIEW Untuk informasi selengkapnya tentang trek pratinjau, lihat Memilih trek pemeliharaan klaster di dokumentasi Amazon Redshift.

DBA, arsitek Cloud

Buat bucket S3 untuk menyimpan data pelatihan dan artefak model.

Di konsol Amazon S3, buat bucket S3 untuk data pelatihan dan pengujian. Untuk informasi selengkapnya tentang membuat bucket S3, lihat Membuat bucket S3 dari AWS Quick Starts. 

penting

Pastikan cluster Amazon Redshift dan bucket S3 Anda berada di Wilayah yang sama. 

DBA, arsitek Cloud

Buat dan lampirkan kebijakan IAM ke cluster Amazon Redshift.

Buat kebijakan IAM untuk mengizinkan klaster Amazon Redshift SageMaker mengakses dan Amazon S3. Untuk petunjuk dan langkah-langkahnya, lihat Penyiapan klaster untuk menggunakan Amazon Redshift MLdalam dokumentasi Amazon Redshift.

DBA, arsitek Cloud

Izinkan pengguna dan grup Amazon Redshift mengakses skema dan tabel.

Berikan izin untuk memungkinkan pengguna dan grup di Amazon Redshift mengakses skema dan tabel internal dan eksternal. Untuk langkah dan petunjuk, lihat Mengelola izin dan kepemilikan di dokumentasi Amazon Redshift.

DBA
TugasDeskripsiKeterampilan yang dibutuhkan

Buat dan latih model ML di Amazon Redshift.

Buat dan latih model MLmu di Amazon Redshift Ml. Untuk informasi selengkapnya, lihat CREATE MODEL pernyataan di dokumentasi Amazon Redshift.

Pengembang, Ilmuwan data
TugasDeskripsiKeterampilan yang dibutuhkan

Lakukan inferensi menggunakan fungsi model ML yang dihasilkan.

Untuk informasi selengkapnya tentang melakukan inferensi menggunakan fungsi model ML yang dihasilkan, lihat Prediksi dalam dokumentasi Amazon Redshift.

Ilmuwan data, Pengguna intelijen bisnis

Sumber daya terkait

Siapkan kumpulan data pelatihan dan uji

Siapkan dan konfigurasikan tumpukan teknologi

Buat dan latih model ML di Amazon Redshift

Lakukan inferensi dan prediksi batch di Amazon Redshift

Sumber daya lainnya