Mengatur SageMaker HyperPod cluster dengan Amazon EKS - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengatur SageMaker HyperPod cluster dengan Amazon EKS

SageMaker HyperPod adalah layanan yang SageMaker dikelola AI yang memungkinkan pelatihan skala besar model pondasi pada cluster komputasi yang berjalan lama dan tangguh, terintegrasi dengan Amazon EKS untuk mengatur sumber daya komputasi. HyperPod Anda dapat menjalankan pekerjaan pelatihan tanpa gangguan selama berminggu-minggu atau berbulan-bulan menggunakan kluster Amazon EKS dengan fitur HyperPod ketahanan yang memeriksa berbagai kegagalan perangkat keras dan memulihkan node yang rusak secara otomatis.

Fitur utama untuk pengguna admin cluster termasuk yang berikut ini.

Untuk pengguna ilmuwan data, dukungan EKS HyperPod memungkinkan yang berikut ini.

  • Menjalankan beban kerja kontainer untuk melatih model pondasi di cluster HyperPod

  • Menjalankan inferensi pada cluster EKS, memanfaatkan integrasi antara HyperPod dan EKS

  • Memanfaatkan kemampuan auto-resume pekerjaan untuk pelatihan Kubeflow PyTorch () PyTorchJob

catatan

Amazon EKS memungkinkan orkestrasi tugas dan infrastruktur yang dikelola pengguna melalui Amazon EKS Control SageMaker HyperPod Plane. Pastikan bahwa akses pengguna ke klaster melalui endpoint Kubernetes API Server mengikuti prinsip hak istimewa paling sedikit, dan jalan keluar jaringan dari cluster diamankan. HyperPod

Untuk mempelajari selengkapnya tentang mengamankan akses ke Amazon EKS API Server, lihat Mengontrol akses jaringan ke titik akhir server API cluster.

Untuk mempelajari selengkapnya tentang mengamankan akses jaringan HyperPod, lihatMenyiapkan SageMaker HyperPod dengan VPC Amazon khusus.

Arsitektur tingkat tinggi dukungan Amazon EKS HyperPod melibatkan pemetaan 1-ke-1 antara cluster EKS (bidang kontrol) dan HyperPod cluster (node pekerja) dalam VPC, seperti yang ditunjukkan pada diagram berikut.

EKS and HyperPod VPC architecture with control plane, klaster nodes, and Layanan AWS.