Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS

Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan orkestrasi Amazon EKS melalui UI konsol AI. SageMaker

Membuat Klaster

Untuk menavigasi ke halaman SageMaker HyperPod Clusters dan memilih orkestrasi Amazon EKS, ikuti langkah-langkah berikut.

  1. Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/.

  2. Pilih HyperPod Cluster di panel navigasi kiri dan kemudian Manajemen Cluster.

  3. Pada halaman Klaster, pilih Buat klaster.

  4. Pada drop-down Create HyperPod cluster, pilih Orchestrated by Amazon EKS.

  5. Pada halaman pembuatan cluster EKS, Anda akan melihat dua opsi, pilih opsi yang paling sesuai dengan kebutuhan Anda.

    1. Pengaturan cepat -Untuk segera memulai dengan pengaturan default, pilih Pengaturan cepat. Dengan opsi ini, SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.

    2. Penyiapan khusus -Untuk mengintegrasikan dengan AWS sumber daya yang ada atau memiliki persyaratan jaringan, keamanan, atau penyimpanan tertentu, pilih Penyiapan khusus. Dengan opsi ini, Anda dapat memilih untuk menggunakan sumber daya yang ada atau membuat yang baru, dan Anda dapat menyesuaikan konfigurasi yang paling sesuai dengan kebutuhan Anda.

Pengaturan Cepat

Pada bagian Quick setup, ikuti langkah-langkah berikut untuk membuat HyperPod cluster Anda dengan orkestrasi Amazon EKS.

Tentukan nama untuk klaster baru. Anda tidak dapat mengubah nama pengguna master setelah klaster DB dibuat.

Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan klaster, Anda harus menambahkan setidaknya satu grup instans. Ikuti langkah-langkah berikut untuk menambahkan grup instans.

  1. Untuk tipe grup Instance, pilih Standard atau Restricted Instance Group (RIG). Biasanya, Anda akan memilih Standar, yang menyediakan lingkungan komputasi tujuan umum tanpa batasan keamanan tambahan. Restricted Instance Group (RIG) adalah lingkungan khusus untuk kustomisasi model dasar seperti Amazon Nova. Untuk informasi selengkapnya tentang pengaturan penyesuaian model RIG untuk Amazon Nova, lihatKustomisasi Amazon Nova di Amazon SageMaker HyperPod.

  2. Untuk Nama, tentukan nama untuk grup instance.

  3. Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

  4. Untuk Tipe instans, pilih tipe instans untuk instans tersebut. Pastikan Anda memilih jenis instans dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti di. Kuota SageMaker HyperPod

  5. Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.

  6. Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

  7. Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. df -h Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store.

  8. Misalnya pemeriksaan kesehatan mendalam, pilih opsi Anda. Pemeriksaan kesehatan mendalam memantau kesehatan instans selama pembuatan dan setelah pembaruan perangkat lunak, secara otomatis memulihkan instance yang salah melalui reboot atau penggantian saat diaktifkan.

  9. Pilih Tambahkan grup instans.

Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster. Tinjau pengaturan default.

Pengaturan khusus

Pada bagian Penyiapan kustom, ikuti langkah-langkah berikut untuk membuat HyperPod klaster pertama Anda dengan orkestrasi Amazon EKS.

Tentukan nama untuk klaster baru. Anda tidak dapat mengubah nama pengguna master setelah klaster DB dibuat.

Untuk pemulihan Instance, pilih Otomatis - direkomendasikan atau Tidak Ada.

Konfigurasikan pengaturan jaringan di dalam cluster dan in-and-out cluster. Untuk orkestrasi cluster SageMaker HyperPod dengan Amazon EKS, VPC secara otomatis diatur ke yang dikonfigurasi dengan kluster EKS yang Anda pilih.

  1. Untuk VPC, pilih VPC Anda sendiri jika Anda sudah memiliki VPC yang memberikan akses SageMaker AI ke VPC Anda. Untuk membuat VPC baru, ikuti petunjuk di Buat VPC di Panduan Pengguna Amazon Virtual Private Cloud. Anda dapat membiarkannya sebagai None untuk menggunakan SageMaker AI VPC default.

  2. Untuk blok VPC IPv4 CIDR, masukkan IP awal VPC Anda.

  3. Untuk Availability Zones, pilih Availability Zones (AZ) di mana HyperPod akan membuat subnet untuk cluster Anda. Pilih AZs yang sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

  4. Untuk grup Keamanan, pilih grup keamanan yang dilampirkan ke klaster Amazon EKS atau yang lalu lintas masuknya diizinkan oleh grup keamanan yang terkait dengan kluster Amazon EKS. Untuk membuat grup keamanan baru, buka konsol Amazon VPC.

Ikuti langkah-langkah ini untuk membuat atau memilih klaster Amazon EKS untuk digunakan sebagai orkestrator.

  1. Untuk kluster EKS, pilih buat kluster Amazon EKS baru atau gunakan yang sudah ada.

    Jika Anda perlu membuat cluster EKS baru, Anda dapat membuatnya dari bagian cluster EKS tanpa harus membuka konsol Amazon EKS.

    catatan

    Subnet VPC yang Anda pilih HyperPod harus bersifat pribadi.

    Setelah mengirimkan permintaan pembuatan cluster EKS baru, tunggu hingga cluster EKS menjadi. Active

  2. Untuk versi Kubernetes, pilih versi dari menu drop-down. Untuk informasi selengkapnya tentang versi Kubernetes, lihat Memahami siklus hidup versi Kubernetes di EKS dari Panduan Pengguna Amazon EKS.

  3. Untuk Operator, pilih Gunakan bagan dan add-on Helm default atau Jangan instal operator. Opsi default Gunakan bagan dan add-on Helm default, yang akan digunakan untuk menginstal operator di kluster EKS. Untuk informasi selengkapnya tentang bagan dan add-on Helm default, lihat helm_chartdari repositori. GitHub Untuk informasi selengkapnya, lihat Menginstal paket di klaster Amazon EKS menggunakan Helm.

  4. Untuk operator Diaktifkan, lihat daftar operator yang diaktifkan. Untuk mengedit operator, hapus centang pada kotak di bagian atas dan pilih operator untuk mengaktifkan klaster EKS.

    catatan

    Untuk menggunakan HyperPod EKS, Anda harus menginstal bagan Helm dan add-on yang mengaktifkan operator di kluster EKS. Komponen-komponen ini mengkonfigurasi EKS sebagai bidang kontrol untuk HyperPod dan menyediakan pengaturan yang diperlukan untuk manajemen beban kerja dan orkestrasi.

Untuk menambahkan grup instance, pilih Tambah grup. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan klaster, Anda harus menambahkan setidaknya satu grup instans. Ikuti langkah-langkah berikut untuk menambahkan grup instans.

  1. Untuk tipe grup Instance, pilih Standard atau Restricted Instance Group (RIG). Biasanya, Anda akan memilih Standar, yang menyediakan lingkungan komputasi tujuan umum tanpa batasan keamanan tambahan. Restricted Instance Group (RIG) adalah lingkungan khusus untuk kustomisasi model dasar seperti Amazon Nova. Untuk informasi selengkapnya tentang pengaturan penyesuaian model RIG untuk Amazon Nova, lihatKustomisasi Amazon Nova di Amazon SageMaker HyperPod.

  2. Untuk Nama, tentukan nama untuk grup instance.

  3. Untuk kapasitas Instans, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

  4. Untuk Tipe instans, pilih tipe instans untuk instans tersebut. Pastikan Anda memilih jenis instans dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti di. Kuota SageMaker HyperPod

  5. Untuk kuantitas Instance, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan 1 untuk ketiga grup.

  6. Untuk Zona Ketersediaan Target, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

  7. Untuk volume penyimpanan tambahan per instance (GB) - opsional, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah/opt/sagemaker. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. df -h Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic Block Store.

  8. Misalnya pemeriksaan kesehatan mendalam, pilih opsi Anda. Pemeriksaan kesehatan mendalam memantau kesehatan instans selama pembuatan dan setelah pembaruan perangkat lunak, secara otomatis memulihkan instance yang salah melalui reboot atau penggantian saat diaktifkan. Untuk mempelajari selengkapnya, lihat Pemeriksaan Kondisi Mendalam

  9. Pilih Tambahkan grup instans.

Anda dapat memilih untuk menggunakan skrip siklus hidup default atau skrip siklus hidup kustom, yang akan disimpan di bucket Amazon S3 Anda. Anda dapat melihat skrip siklus hidup default di repositori Pelatihan Terdistribusi Luar Biasa. GitHub Untuk mem-pelajari selengkapnya tentang skrip siklus hidup, lihat. Menyesuaikan SageMaker HyperPod cluster menggunakan skrip siklus hidup

  1. Untuk skrip Siklus Hidup, pilih untuk menggunakan skrip siklus hidup default atau kustom.

  2. Untuk bucket S3 untuk skrip siklus hidup, pilih untuk membuat bucket baru atau gunakan bucket yang ada untuk menyimpan skrip siklus hidup.

Pilih atau buat peran IAM yang memungkinkan HyperPod untuk menjalankan dan mengakses AWS sumber daya yang diperlukan atas nama Anda. Untuk informasi selengkapnya, lihat IAM Role untuk SageMaker HyperPod.

Konfigurasikan sistem file FSx for Lustre yang akan disediakan di cluster. HyperPod

  1. Untuk sistem File, pilih yang sudah ada FSx untuk sistem file Lustre, untuk membuat yang baru FSx untuk sistem file Lustre, atau tidak menyediakan FSx untuk sistem file Lustre.

  2. Untuk Throughput per unit penyimpanan, pilih throughput yang akan tersedia per TiB penyimpanan yang disediakan.

  3. Untuk kapasitas penyimpanan, masukkan nilai kapasitas dalam TB.

  4. Untuk tipe kompresi data, pilih LZ4untuk mengaktifkan kompresi data.

  5. Untuk versi Lustre, lihat nilai yang direkomendasikan untuk sistem file baru.

Untuk Tag - opsional, tambahkan pasangan kunci dan nilai ke cluster baru dan kelola cluster sebagai AWS sumber daya. Untuk mempelajari lebih lanjut tentang penandaan sumber daya , lihat .

Terapkan sumber daya

Setelah Anda menyelesaikan konfigurasi klaster menggunakan Penyiapan cepat atau Penyiapan khusus, pilih opsi berikut untuk memulai penyediaan sumber daya dan pembuatan klaster.

  • Kirim - SageMaker AI akan mulai menyediakan sumber daya konfigurasi default dan membuat cluster.

  • Unduh parameter CloudFormation template -Anda akan mengunduh parameter konfigurasi file JSON dan menjalankan AWS CLI perintah untuk menyebarkan CloudFormation tumpukan untuk menyediakan sumber daya konfigurasi dan membuat cluster. Anda dapat mengedit file JSON parameter yang diunduh jika diperlukan. Jika Anda memilih opsi ini, lihat petunjuk lainnya diMembuat SageMaker HyperPod cluster menggunakan template AWS CloudFormation.