Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memulai dengan dukungan Amazon EKS di SageMaker HyperPod
Selain umum Prasyarat untuk menggunakan SageMaker HyperPod untuk SageMaker HyperPod, periksa persyaratan dan pertimbangan berikut untuk mengatur cluster SageMaker HyperPod menggunakan Amazon EKS.
penting
Anda dapat mengatur konfigurasi sumber daya untuk membuat SageMaker HyperPod cluster menggunakan AWS Management Console dan CloudFormation. Untuk informasi selengkapnya, lihat Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS dan Membuat SageMaker HyperPod cluster menggunakan template CloudFormation.
Persyaratan
catatan
Sebelum membuat HyperPod cluster, Anda memerlukan kluster Amazon EKS yang sedang berjalan yang dikonfigurasi dengan VPC dan diinstal menggunakan Helm.
-
Jika menggunakan konsol SageMaker AI, Anda dapat membuat klaster Amazon EKS di dalam halaman konsol HyperPod cluster. Untuk informasi selengkapnya, lihat Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS.
-
Jika menggunakan AWS CLI, Anda harus membuat klaster Amazon EKS sebelum membuat cluster untuk diasosiasikan. HyperPod Untuk informasi selengkapnya, lihat Membuat klaster Amazon EKS di Panduan Pengguna Amazon EKS.
Saat menyediakan kluster Amazon EKS Anda, pertimbangkan hal berikut:
-
Dukungan versi Kubernetes
-
SageMaker HyperPod mendukung Kubernetes versi 1.28, 1.29, 1.30, 1.31, 1.32, dan 1.33.
-
-
Mode otentikasi klaster Amazon EKS
-
Mode otentikasi kluster Amazon EKS yang didukung oleh SageMaker HyperPod adalah
APIdanAPI_AND_CONFIG_MAP.
-
-
Jaringan
-
SageMaker HyperPod memerlukan plug-in Amazon VPC Container Network Interface (CNI) versi 1.18.3 atau yang lebih baru.
catatan
AWS Plugin VPC CNI untuk Kubernetes
adalah satu-satunya CNI yang didukung oleh. SageMaker HyperPod -
Jenis subnet di VPC Anda harus bersifat pribadi HyperPod untuk cluster.
-
-
Peran IAM
-
Pastikan peran IAM yang diperlukan untuk HyperPod diatur sebagaimana dipandu di AWS Identity and Access Management untuk SageMaker HyperPod bagian.
-
-
Pengaya klaster Amazon EKS
-
Anda dapat terus menggunakan berbagai add-on yang disediakan oleh Amazon EKS seperti Kube-proxy, CoreDNS, plugin Amazon VPC Container Network Interface (CNI), identitas GuardDuty pod Amazon EKS, agen, driver Amazon Container Storage Interface (CSI), FSx driver Mountpoint untuk Amazon S3 CSI, Distro for, dan agen Observability. AWS OpenTelemetry CloudWatch
-
Pertimbangan untuk mengonfigurasi SageMaker HyperPod cluster dengan Amazon EKS
-
Anda harus menggunakan peran IAM yang berbeda berdasarkan jenis node Anda. Untuk HyperPod node, gunakan peran berdasarkanPeran IAM untuk SageMaker HyperPod. Untuk node Amazon EKS, lihat Peran IAM node Amazon EKS.
-
Anda dapat menyediakan dan memasang volume Amazon EBS tambahan pada SageMaker HyperPod node menggunakan dua pendekatan: gunakan InstanceStorageConfigsuntuk penyediaan volume tingkat cluster (tersedia saat membuat atau memperbarui grup instans), atau gunakan driver Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) untuk pengelolaan volume level pod dinamis. Dengan InstanceStorageConfigs, atur jalur lokal
/opt/sagemakeruntuk memasang volume dengan benar ke pod Amazon EKS Anda. Untuk informasi tentang cara menerapkan pengontrol Amazon EBS CSI pada HyperPod node, lihat. Menggunakan driver Amazon EBS CSI di SageMaker HyperPod kluster EKS -
Jika Anda menggunakan label tipe instance untuk menentukan batasan penjadwalan, pastikan Anda menggunakan tipe instans AI ML yang diawali dengan awalan. SageMaker
ml.Misalnya, untuk instance P5, gunakanml.p5.48xlargesebagai pengganti.p5.48xlarge
Pertimbangan untuk mengonfigurasi jaringan untuk SageMaker HyperPod cluster dengan Amazon EKS
-
Setiap instance HyperPod cluster mendukung satu Elastic Network Interface (ENI). Untuk jumlah maksimum Pod per jenis instans, lihat tabel berikut.
Tipe instans Jumlah Pod Maks ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xbesar 49 ml.trn1.32xbesar 49 ml.trn1n.32xbesar 49 ml.g5.xlarge 14 ml.g5.2xbesar 14 ml.g5.4xbesar 29 ml.g5.8xbesar 29 ml.g5.12xbesar 49 ml.g5.16xbesar 29 ml.g5.24xbesar 49 ml.g5.48xbesar 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xbesar 29 ml.c5.18xlarge 49 ml.c5.24xbesar 49 ml.c5n.besar 9 ml.c5n.2xbesar 14 ml.c5n.4xbesar 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 db.m5.large 9 db.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 db.t3.medium 5 db.t3.large 11 db.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xbesar 14 ml.g6.4xbesar 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xbesar 49 ml.g6.48xlarge 49 ml.gr6.4xbesar 29 ml.gr6.8xbesar 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
Hanya Pod yang
hostNetwork = truememiliki akses ke Amazon EC2 Instance Metadata Service (IMDS) secara default. Gunakan identitas Amazon EKS Pod atau peran IAM untuk akun layanan (IRSA) untuk mengelola akses ke AWS kredensyal Pod. -
HyperPod Cluster yang diatur EKS mendukung mode pengalamatan IP ganda, memungkinkan konfigurasi dengan atau IPv4 untuk kluster IPv6 Amazon IPv6 EKS di lingkungan VPC dan subnet yang diaktifkan. IPv6 Untuk informasi selengkapnya, lihat Menyiapkan SageMaker HyperPod dengan VPC Amazon khusus.
Pertimbangan untuk menggunakan fitur ketahanan HyperPod cluster
-
Penggantian otomatis node tidak didukung untuk instance CPU.
-
Agen pemantauan HyperPod kesehatan perlu diinstal agar pemulihan otomatis node berfungsi. Agen dapat diinstal menggunakan Helm. Untuk informasi selengkapnya, lihat Menginstal paket di kluster Amazon EKS menggunakan Helm.
-
Agen pemeriksaan kesehatan dan pemantauan kesehatan yang HyperPod mendalam mendukung instans GPU dan Trn.
-
SageMaker AI menerapkan noda berikut ke node saat mereka menjalani pemeriksaan kesehatan mendalam:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulablecatatan
Anda tidak dapat menambahkan taint khusus ke node dalam grup instance dengan
DeepHealthChecksdihidupkan.
Setelah klaster Amazon EKS Anda berjalan, konfigurasikan cluster Anda menggunakan manajer paket Helm seperti yang diinstruksikan Menginstal paket di kluster Amazon EKS menggunakan Helm sebelum membuat cluster Anda HyperPod .