Menggunakan pelatihan terdistribusi di AWS Clean Rooms

Prasyarat:

An Akun AWS dengan akses ke AWS Clean Rooms
Kolaborasi yang dibuat di AWS Clean Rooms
Algoritma model yang dikonfigurasi yang mendukung pelatihan terdistribusi
Dataset besar yang cocok untuk pemrosesan terdistribusi
Izin yang sesuai untuk membuat dan mengelola model ML dalam kolaborasi
Kuota Amazon EC2 yang memadai untuk menjalankan beberapa instans untuk pelatihan terdistribusi

Pelatihan terdistribusi memanfaatkan kekuatan banyak node komputasi yang bekerja secara paralel untuk memproses sejumlah besar data dan memperbarui parameter model secara efisien.

Untuk informasi selengkapnya tentang pelatihan terdistribusi, lihat Konsep pelatihan terdistribusi di Panduan Pengembang Amazon SageMaker AI.

Console

Untuk menjalankan pekerjaan pelatihan terdistribusi (konsol)

Masuk ke Konsol Manajemen AWS dan buka AWS Clean Rooms konsol di https://console.aws.amazon.com/cleanrooms.
Di panel navigasi kiri, pilih Kolaborasi.
Pada halaman Kolaborasi, pilih kolaborasi tempat Anda ingin membuat model terlatih.
Setelah kolaborasi terbuka, pilih tab model ML.
Di bawah model Custom MS, di bagian Model terlatih, pilih Buat model terlatih.
Pada halaman Buat model terlatih, untuk algoritma model terkait, tentukan algoritme
Untuk detail model Terlatih, masukkan yang berikut ini:
1. Untuk Nama, masukkan nama unik untuk model dalam kolaborasi.
2. (Opsional) Untuk Deskripsi, masukkan deskripsi model yang dilatih.
3. Untuk mode input data Pelatihan, pilih salah satu dari berikut ini:
  - Pilih File jika Anda memiliki kumpulan data yang lebih kecil yang dapat muat pada volume penyimpanan ML dan Anda lebih memilih akses sistem file tradisional untuk skrip pelatihan Anda.
  - Pilih Pipe untuk kumpulan data besar untuk mengalirkan data langsung dari S3, menghindari kebutuhan untuk mengunduh semuanya ke disk, yang dapat meningkatkan kecepatan pelatihan dan mengurangi persyaratan penyimpanan.
  - Pilih FastFileapakah Anda ingin menggabungkan manfaat streaming dari S3 dengan akses sistem file, terutama untuk membaca data secara berurutan atau ketika berhadapan dengan lebih sedikit file untuk waktu startup yang lebih cepat.
Untuk detail saluran masukan ML, lakukan hal berikut:
1. Untuk saluran input ML, tentukan saluran input ML yang menyediakan data ke algoritma model.
  
  Untuk menambahkan saluran lain, pilih Tambahkan saluran input ML lainnya. Anda dapat menambahkan hingga 19 saluran input ML tambahan.
2. Untuk nama Saluran, masukkan nama saluran input ML.
3. Untuk jenis distribusi data Amazon S3, pilih salah satu dari berikut ini:
  - Pilih Sepenuhnya direplikasi untuk memberikan setiap instance pelatihan dengan salinan lengkap kumpulan data Anda. Ini berfungsi paling baik ketika kumpulan data Anda cukup kecil untuk muat dalam memori atau ketika setiap instance membutuhkan akses ke semua data.
  - Pilih Sharded by S3 kunci untuk membagi dataset Anda di seluruh instans pelatihan berdasarkan kunci S3. Setiap instance menerima sekitar 1/n dari total objek S3, di mana 'n' adalah jumlah instance. Ini berfungsi paling baik untuk kumpulan data besar yang ingin Anda proses secara paralel.
  catatan
  Pertimbangkan ukuran set data dan persyaratan pelatihan Anda saat memilih jenis distribusi. Sepenuhnya direplikasi menyediakan akses data yang lengkap tetapi membutuhkan lebih banyak penyimpanan, sementara Sharded by S3 key memungkinkan pemrosesan terdistribusi kumpulan data besar.
Untuk Durasi pelatihan maksimum, pilih jumlah waktu maksimum yang Anda inginkan untuk melatih model Anda.
Untuk Hyperparameters, tentukan parameter spesifik algoritme apa pun dan nilai yang dimaksudkan. Hyperparameter khusus untuk model yang dilatih dan digunakan untuk menyempurnakan pelatihan model.
Untuk variabel Lingkungan, tentukan variabel spesifik algoritme apa pun dan nilai yang dimaksudkan. Variabel lingkungan diatur dalam wadah Docker.
Untuk Enkripsi, untuk menggunakan kustom AWS KMS key, pilih kotak centang Enkripsi rahasia dengan kunci KMS kustom.
Untuk konfigurasi Sumber Daya EC2, tentukan informasi tentang sumber daya komputasi yang digunakan untuk pelatihan model.
1. Untuk jenis Instance, pilih jenis instance yang ingin Anda jalankan.
  
  Jenis instans yang didukung untuk pelatihan terdistribusi adalah:
  - ml.m5.4xlarge
  - ml.m5.12xlarge
  - ml.m5.2xlarge
  - ml.g5.12xbesar
  - ml.g5.24xbesar
2. Untuk hitungan Instance, masukkan jumlah instance.
3. Untuk ukuran Volume dalam GB, masukkan ukuran volume penyimpanan ML.
Pilih Buat model terlatih.

API

Untuk menjalankan pekerjaan pelatihan terdistribusi (API)

Jalankan kode berikut dengan parameter spesifik Anda:


import boto3 
acr_ml_client= boto3.client('cleanroomsml')
 
acr_ml_client.create_trained_model(
    membershipIdentifier= 'membership_id',
    configuredModelAlgorithmAssociationArn = 'arn:aws:cleanrooms-ml:region:account:membership/membershipIdentifier/configured-model-algorithm-association/identifier',
    name='trained_model_name',
    trainingInputMode: "File",
    resourceConfig={
        'instanceCount': "3"
        'instanceType': "ml.m5.xlarge",
        'volumeSizeInGB': 3
    },
    dataChannels=[
        {
            "mlInputChannelArn": channel_arn_1,
            "channelName": "channel_name", 
            "S3DataDistributionType:" "FullyReplicated"
        }
  
    ]
)

catatan

Setelah model terlatih dibuat, Anda tidak dapat mengeditnya. Untuk membuat perubahan, hapus model terlatih dan buat yang baru.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan pelatihan inkremental

Mengekspor artefak model