Memulai dengan dukungan Amazon EKS di SageMaker HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai dengan dukungan Amazon EKS di SageMaker HyperPod

Selain umum Prasyarat untuk menggunakan SageMaker HyperPod untuk SageMaker HyperPod, periksa persyaratan dan pertimbangan berikut untuk mengatur cluster SageMaker HyperPod menggunakan Amazon EKS.

penting

Anda dapat mengatur konfigurasi sumber daya untuk membuat SageMaker HyperPod cluster menggunakan AWS Management Console dan CloudFormation. Untuk informasi selengkapnya, lihat Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS dan Membuat SageMaker HyperPod cluster menggunakan template CloudFormation.

Persyaratan

catatan

Sebelum membuat HyperPod cluster, Anda memerlukan kluster Amazon EKS yang sedang berjalan yang dikonfigurasi dengan VPC dan diinstal menggunakan Helm.

Saat menyediakan kluster Amazon EKS Anda, pertimbangkan hal berikut:

  1. Dukungan versi Kubernetes

    • SageMaker HyperPod mendukung Kubernetes versi 1.28, 1.29, 1.30, 1.31, 1.32, dan 1.33.

  2. Mode otentikasi klaster Amazon EKS

    • Mode otentikasi kluster Amazon EKS yang didukung oleh SageMaker HyperPod adalah API danAPI_AND_CONFIG_MAP.

  3. Jaringan

    • SageMaker HyperPod memerlukan plug-in Amazon VPC Container Network Interface (CNI) versi 1.18.3 atau yang lebih baru.

      catatan

      AWS Plugin VPC CNI untuk Kubernetes adalah satu-satunya CNI yang didukung oleh. SageMaker HyperPod

    • Jenis subnet di VPC Anda harus bersifat pribadi HyperPod untuk cluster.

  4. Peran IAM

  5. Pengaya klaster Amazon EKS

Pertimbangan untuk mengonfigurasi SageMaker HyperPod cluster dengan Amazon EKS

  • Anda harus menggunakan peran IAM yang berbeda berdasarkan jenis node Anda. Untuk HyperPod node, gunakan peran berdasarkanPeran IAM untuk SageMaker HyperPod. Untuk node Amazon EKS, lihat Peran IAM node Amazon EKS.

  • Anda dapat menyediakan dan memasang volume Amazon EBS tambahan pada SageMaker HyperPod node menggunakan dua pendekatan: gunakan InstanceStorageConfigsuntuk penyediaan volume tingkat cluster (tersedia saat membuat atau memperbarui grup instans), atau gunakan driver Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) untuk pengelolaan volume level pod dinamis. Dengan InstanceStorageConfigs, atur jalur lokal /opt/sagemaker untuk memasang volume dengan benar ke pod Amazon EKS Anda. Untuk informasi tentang cara menerapkan pengontrol Amazon EBS CSI pada HyperPod node, lihat. Menggunakan driver Amazon EBS CSI di SageMaker HyperPod kluster EKS

  • Jika Anda menggunakan label tipe instance untuk menentukan batasan penjadwalan, pastikan Anda menggunakan tipe instans AI ML yang diawali dengan awalan. SageMaker ml. Misalnya, untuk instance P5, gunakan ml.p5.48xlarge sebagai pengganti. p5.48xlarge

Pertimbangan untuk mengonfigurasi jaringan untuk SageMaker HyperPod cluster dengan Amazon EKS

  • Setiap instance HyperPod cluster mendukung satu Elastic Network Interface (ENI). Untuk jumlah maksimum Pod per jenis instans, lihat tabel berikut.

    Tipe instans Jumlah Pod Maks
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p5.48xbesar 49
    ml.trn1.32xbesar 49
    ml.trn1n.32xbesar 49
    ml.g5.xlarge 14
    ml.g5.2xbesar 14
    ml.g5.4xbesar 29
    ml.g5.8xbesar 29
    ml.g5.12xbesar 49
    ml.g5.16xbesar 29
    ml.g5.24xbesar 49
    ml.g5.48xbesar 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xbesar 29
    ml.c5.18xlarge 49
    ml.c5.24xbesar 49
    ml.c5n.besar 9
    ml.c5n.2xbesar 14
    ml.c5n.4xbesar 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    db.m5.large 9
    db.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    db.t3.medium 5
    db.t3.large 11
    db.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2xbesar 14
    ml.g6.4xbesar 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xbesar 49
    ml.g6.48xlarge 49
    ml.gr6.4xbesar 29
    ml.gr6.8xbesar 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.p5e.48xlarge 49
  • Hanya Pod yang hostNetwork = true memiliki akses ke Amazon EC2 Instance Metadata Service (IMDS) secara default. Gunakan identitas Amazon EKS Pod atau peran IAM untuk akun layanan (IRSA) untuk mengelola akses ke AWS kredensyal Pod.

  • HyperPod Cluster yang diatur EKS mendukung mode pengalamatan IP ganda, memungkinkan konfigurasi dengan atau IPv4 untuk kluster IPv6 Amazon IPv6 EKS di lingkungan VPC dan subnet yang diaktifkan. IPv6 Untuk informasi selengkapnya, lihat Menyiapkan SageMaker HyperPod dengan VPC Amazon khusus.

Pertimbangan untuk menggunakan fitur ketahanan HyperPod cluster

  • Penggantian otomatis node tidak didukung untuk instance CPU.

  • Agen pemantauan HyperPod kesehatan perlu diinstal agar pemulihan otomatis node berfungsi. Agen dapat diinstal menggunakan Helm. Untuk informasi selengkapnya, lihat Menginstal paket di kluster Amazon EKS menggunakan Helm.

  • Agen pemeriksaan kesehatan dan pemantauan kesehatan yang HyperPod mendalam mendukung instans GPU dan Trn.

  • SageMaker AI menerapkan noda berikut ke node saat mereka menjalani pemeriksaan kesehatan mendalam:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    catatan

    Anda tidak dapat menambahkan taint khusus ke node dalam grup instance dengan DeepHealthChecks dihidupkan.

Setelah klaster Amazon EKS Anda berjalan, konfigurasikan cluster Anda menggunakan manajer paket Helm seperti yang diinstruksikan Menginstal paket di kluster Amazon EKS menggunakan Helm sebelum membuat cluster Anda HyperPod .