Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS

Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan orkestrasi Amazon EKS melalui UI konsol AI. SageMaker

Buat cluster

Untuk menavigasi ke halaman SageMaker HyperPod Clusters dan memilih orkestrasi Amazon EKS, ikuti langkah-langkah berikut.

  1. Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/.

  2. Pilih HyperPod Cluster di panel navigasi kiri dan kemudian Manajemen Cluster.

  3. Pada halaman SageMaker HyperPod Clusters, pilih Create HyperPod cluster.

  4. Pada drop-down Create HyperPod cluster, pilih Orchestrated by Amazon EKS.

  5. Pada halaman pembuatan cluster EKS, Anda akan melihat dua opsi, pilih opsi yang paling sesuai dengan kebutuhan Anda.

    1. Pengaturan cepat - Untuk segera memulai dengan pengaturan default, pilih Pengaturan cepat. Dengan opsi ini, SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.

    2. Penyiapan khusus - Untuk mengintegrasikan dengan AWS sumber daya yang ada atau memiliki persyaratan jaringan, keamanan, atau penyimpanan tertentu, pilih Penyiapan khusus. Dengan opsi ini, Anda dapat memilih untuk menggunakan sumber daya yang ada atau membuat yang baru, dan Anda dapat menyesuaikan konfigurasi yang paling sesuai dengan kebutuhan Anda.

Pada bagian Quick setup, ikuti langkah-langkah berikut untuk membuat HyperPod cluster Anda dengan orkestrasi Amazon EKS.

Pengaturan umum

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

Grup instans

Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menyebarkan cluster, Anda harus menambahkan setidaknya satu grup instance. Ikuti langkah-langkah ini untuk menambahkan grup instans.

  1. Untuk tipe grup Instance, pilih Standard atau Restricted Instance Group (RIG). Biasanya, Anda akan memilih Standar, yang menyediakan lingkungan komputasi tujuan umum tanpa batasan keamanan tambahan. Restricted Instance Group (RIG) adalah lingkungan khusus untuk kustomisasi model dasar seperti Amazon Nova. Untuk informasi selengkapnya tentang menyiapkan RIG untuk kustomisasi model Amazon Nova, lihatKustomisasi Amazon Nova di Amazon SageMaker HyperPod.

  2. Untuk Nama, tentukan nama untuk grup instance.

  3. Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

  4. Untuk jenis Instance, pilih instance untuk grup instance.

    penting

    Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihatSageMaker HyperPod kuota.

  5. Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.

  6. Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

  7. Untuk volume penyimpanan tambahan per instans (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. df -h Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store.

  8. Misalnya pemeriksaan kesehatan mendalam, pilih opsi Anda. Pemeriksaan kesehatan mendalam memantau kesehatan instans selama pembuatan dan setelah pembaruan perangkat lunak, secara otomatis memulihkan instance yang salah melalui reboot atau penggantian saat diaktifkan.

  9. Jika tipe instans mendukung partisi GPU dengan Multi-Instance GPU (MIG), Anda dapat mengaktifkan konfigurasi partisi GPU untuk grup instans. Partisi GPU memungkinkan Anda untuk membagi GPUs menjadi partisi yang lebih kecil dan terisolasi untuk meningkatkan pemanfaatan sumber daya. Untuk informasi selengkapnya, lihat Menggunakan partisi GPU di Amazon SageMaker HyperPod.

    1. Alihkan Gunakan partisi GPU untuk mengaktifkan partisi GPU untuk grup instance ini.

    2. Pilih profil partisi GPU dari opsi yang tersedia untuk jenis instans Anda. Setiap profil mendefinisikan konfigurasi irisan GPU dan alokasi memori.

  10. Pilih Tambahkan grup instans.

Default pengaturan cepat

Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster. Tinjau pengaturan default.

Pada bagian Penyiapan kustom, ikuti langkah-langkah berikut untuk membuat HyperPod klaster pertama Anda dengan orkestrasi Amazon EKS.

Pengaturan umum

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

Untuk pemulihan Instance, pilih Otomatis - direkomendasikan atau Tidak Ada.

Jaringan

Konfigurasikan pengaturan jaringan di dalam cluster dan in-and-out cluster. Untuk orkestrasi cluster SageMaker HyperPod dengan Amazon EKS, VPC secara otomatis diatur ke yang dikonfigurasi dengan kluster EKS yang Anda pilih.

  1. Untuk VPC, pilih VPC Anda sendiri jika Anda sudah memiliki VPC yang memberikan akses SageMaker AI ke VPC Anda. Untuk membuat VPC baru, ikuti petunjuk di Buat VPC di Panduan Pengguna Amazon Virtual Private Cloud. Anda dapat membiarkannya sebagai None untuk menggunakan SageMaker AI VPC default.

  2. Untuk blok VPC IPv4 CIDR, masukkan IP awal VPC Anda.

  3. Untuk Availability Zones, pilih Availability Zones (AZ) di mana HyperPod akan membuat subnet untuk cluster Anda. Pilih AZs yang sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

  4. Untuk grup Keamanan, pilih grup keamanan yang dilampirkan ke klaster Amazon EKS atau yang lalu lintas masuknya diizinkan oleh grup keamanan yang terkait dengan kluster Amazon EKS. Untuk membuat grup keamanan baru, buka konsol VPC Amazon.

Orkestrasi

Ikuti langkah-langkah ini untuk membuat atau memilih klaster Amazon EKS untuk digunakan sebagai orkestrator.

  1. Untuk kluster EKS, pilih buat kluster Amazon EKS baru atau gunakan yang sudah ada.

    Jika Anda perlu membuat cluster EKS baru, Anda dapat membuatnya dari bagian cluster EKS tanpa harus membuka konsol Amazon EKS.

    catatan

    Subnet VPC yang Anda pilih HyperPod harus bersifat pribadi.

    Setelah mengirimkan permintaan pembuatan kluster EKS baru, tunggu hingga cluster EKS menjadi. Active

  2. Untuk versi Kubernetes, pilih versi dari menu tarik-turun. Untuk informasi selengkapnya tentang versi Kubernetes, lihat Memahami siklus hidup versi Kubernetes di EKS dari Panduan Pengguna Amazon EKS.

  3. Untuk Operator, pilih Gunakan bagan dan add-on Helm default atau Jangan instal operator. Opsi default Gunakan bagan dan add-on Helm default, yang akan digunakan untuk menginstal operator di kluster EKS. Untuk informasi selengkapnya tentang bagan dan add-on Helm default, lihat helm_chartdari repositori. GitHub Untuk informasi selengkapnya, lihat Menginstal paket di cluster Amazon EKS menggunakan Helm.

  4. Untuk operator Diaktifkan, lihat daftar operator yang diaktifkan. Untuk mengedit operator, hapus centang pada kotak di bagian atas dan pilih operator untuk mengaktifkan klaster EKS.

    catatan

    Untuk menggunakan HyperPod EKS, Anda harus menginstal bagan Helm dan add-on yang mengaktifkan operator di kluster EKS. Komponen-komponen ini mengkonfigurasi EKS sebagai bidang kontrol untuk HyperPod dan menyediakan pengaturan yang diperlukan untuk manajemen beban kerja dan orkestrasi.

Grup instans

Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menyebarkan cluster, Anda harus menambahkan setidaknya satu grup instance. Ikuti langkah-langkah ini untuk menambahkan grup instans.

  1. Untuk tipe grup Instance, pilih Standard atau Restricted Instance Group (RIG). Biasanya, Anda akan memilih Standar, yang menyediakan lingkungan komputasi tujuan umum tanpa batasan keamanan tambahan. Restricted Instance Group (RIG) adalah lingkungan khusus untuk kustomisasi model dasar seperti Amazon Nova. Untuk informasi selengkapnya tentang menyiapkan RIG untuk kustomisasi model Amazon Nova, lihatKustomisasi Amazon Nova di Amazon SageMaker HyperPod.

  2. Untuk Nama, tentukan nama untuk grup instance.

  3. Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

  4. Untuk jenis Instance, pilih instance untuk grup instance.

    penting

    Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihatSageMaker HyperPod kuota.

  5. Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.

  6. Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

  7. Untuk volume penyimpanan tambahan per instans (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. df -h Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store.

  8. Misalnya pemeriksaan kesehatan mendalam, pilih opsi Anda. Pemeriksaan kesehatan mendalam memantau kesehatan instans selama pembuatan dan setelah pembaruan perangkat lunak, secara otomatis memulihkan instance yang salah melalui reboot atau penggantian saat diaktifkan. Untuk mempelajari selengkapnya, lihat Pemeriksaan kesehatan yang mendalam

  9. Untuk Gunakan partisi GPU - opsional, jika jenis instans Anda mendukung partisi GPU dengan Multi-Instance GPU (MIG), Anda dapat mengaktifkan opsi ini untuk mengonfigurasi profil partisi GPU untuk grup instance. Partisi GPU memungkinkan Anda untuk membagi GPUs menjadi partisi yang lebih kecil dan terisolasi untuk meningkatkan pemanfaatan sumber daya. Untuk informasi selengkapnya, lihat Menggunakan partisi GPU di Amazon SageMaker HyperPod.

    1. Alihkan Gunakan partisi GPU untuk mengaktifkan partisi GPU untuk grup instance ini.

    2. Pilih profil partisi GPU dari opsi yang tersedia untuk jenis instans Anda. Setiap profil mendefinisikan konfigurasi irisan GPU dan alokasi memori.

  10. Pilih Tambahkan grup instans.

Skrip siklus hidup

Anda dapat memilih untuk menggunakan skrip siklus hidup default atau skrip siklus hidup kustom, yang akan disimpan di bucket Amazon S3 Anda. Anda dapat melihat skrip siklus hidup default di repositori Pelatihan Terdistribusi Luar Biasa. GitHub Untuk mempelajari lebih lanjut tentang skrip siklus hidup, lihat. Menyesuaikan SageMaker HyperPod cluster menggunakan skrip siklus hidup

  1. Untuk skrip Siklus Hidup, pilih untuk menggunakan skrip siklus hidup default atau kustom.

  2. Untuk bucket S3 untuk skrip siklus hidup, pilih untuk membuat bucket baru atau gunakan bucket yang ada untuk menyimpan skrip siklus hidup.

Izin

Pilih atau buat peran IAM yang memungkinkan HyperPod untuk menjalankan dan mengakses AWS sumber daya yang diperlukan atas nama Anda. Untuk informasi selengkapnya, lihat Peran IAM untuk SageMaker HyperPod.

Penyimpanan

Konfigurasikan sistem file FSx for Lustre yang akan disediakan di cluster. HyperPod

  1. Untuk sistem File, pilih yang sudah ada FSx untuk sistem file Lustre, untuk membuat yang baru FSx untuk sistem file Lustre, atau tidak menyediakan FSx untuk sistem file Lustre.

  2. Untuk Throughput per unit penyimpanan, pilih throughput yang akan tersedia per TiB penyimpanan yang disediakan.

  3. Untuk kapasitas penyimpanan, masukkan nilai kapasitas dalam TB.

  4. Untuk tipe kompresi data, pilih LZ4untuk mengaktifkan kompresi data.

  5. Untuk versi Lustre, lihat nilai yang direkomendasikan untuk sistem file baru.

Tag - opsional

Untuk Tag - opsional, tambahkan pasangan kunci dan nilai ke cluster baru dan kelola cluster sebagai AWS sumber daya. Untuk mempelajari lebih lanjut, lihat Menandai AWS sumber daya Anda.

Terapkan sumber daya

Setelah Anda menyelesaikan konfigurasi klaster menggunakan Penyiapan cepat atau Penyiapan khusus, pilih opsi berikut untuk memulai penyediaan sumber daya dan pembuatan klaster.

  • Kirim - SageMaker AI akan mulai menyediakan sumber daya konfigurasi default dan membuat cluster.

  • Unduh parameter CloudFormation template - Anda akan mengunduh parameter konfigurasi file JSON dan menjalankan AWS CLI perintah untuk menyebarkan CloudFormation tumpukan untuk menyediakan sumber daya konfigurasi dan membuat cluster. Anda dapat mengedit file JSON parameter yang diunduh jika diperlukan. Jika Anda memilih opsi ini, lihat petunjuk lainnya diMembuat SageMaker HyperPod cluster menggunakan template CloudFormation.