Penskalaan otomatis pada EKS SageMaker HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penskalaan otomatis pada EKS SageMaker HyperPod

Amazon SageMaker HyperPod menyediakan solusi penskalaan otomatis node berbasis Karpenter terkelola untuk cluster yang dibuat dengan orkestrasi EKS. Karpenter adalah pengelola siklus hidup node Kubernetes open-source yang dibangun oleh AWS Kubernetes yang mengoptimalkan penskalaan klaster dan efisiensi biaya. Tidak seperti penerapan Karpenter yang dikelola sendiri, implementasi SageMaker HyperPod terkelola menghilangkan overhead operasional untuk menginstal, mengonfigurasi, dan memelihara pengontrol Karpenter sambil memberikan ketahanan terintegrasi dan toleransi kesalahan. Solusi penskalaan otomatis terkelola ini dibangun di atas HyperPod kemampuan penyediaan berkelanjutan dan memungkinkan Anda menskalakan sumber daya komputasi secara efisien untuk beban kerja pelatihan dan inferensi dengan penanganan dan pemulihan kegagalan otomatis.

Pembayaran dilakukan sesuai penggunaan. Anda bertanggung jawab untuk membayar semua instans komputasi yang secara otomatis disediakan melalui penskalaan otomatis sesuai dengan harga standar. SageMaker HyperPod Untuk informasi harga terperinci, lihat Amazon SageMaker AI.

Dengan mengaktifkan penskalaan otomatis berbasis Karpenter, Anda memiliki akses ke: HyperPod

  • Siklus hidup terkelola layanan - HyperPod menangani instalasi, pembaruan, dan pemeliharaan Karpenter, menghilangkan overhead operasional.

  • Penyediaan tepat waktu - Karpenter akan mengamati pod Anda yang tertunda dan menyediakan komputasi yang diperlukan untuk beban kerja Anda dari kumpulan sesuai permintaan.

  • Skala ke nol - Turunkan ke nol node tanpa mempertahankan infrastruktur pengontrol khusus.

  • Pemilihan node sadar beban kerja - Karpenter memilih jenis instans yang optimal berdasarkan persyaratan pod, zona ketersediaan, dan harga untuk meminimalkan biaya.

  • Konsolidasi simpul otomatis - Karpenter secara teratur mengevaluasi cluster untuk peluang pengoptimalan, menggeser beban kerja untuk menghilangkan node yang kurang dimanfaatkan.

  • Ketahanan terintegrasi - Memanfaatkan toleransi HyperPod kesalahan bawaan dan mekanisme pemulihan simpul.

Topik berikut menjelaskan cara mengaktifkan HyperPod penskalaan otomatis dengan Karpenter.

Prasyarat

  • Penyediaan berkelanjutan diaktifkan di klaster Anda HyperPod . Aktifkan penyediaan berkelanjutan dengan menyetel Continuous saat --node-provisioning-mode membuat klaster Anda SageMaker HyperPod . Untuk informasi selengkapnya, lihat Penyediaan berkelanjutan untuk operasi klaster yang disempurnakan di Amazon EKS.

  • Agen Pemantau Kesehatan versi 1.0.742.0_1.0.241.0 atau lebih tinggi diinstal. Diperlukan untuk operasi dan pemantauan HyperPod cluster. Agen harus dikonfigurasi sebelum mengaktifkan penskalaan otomatis Karpenter untuk memastikan pelaporan kesehatan klaster dan manajemen siklus hidup node yang tepat. Untuk informasi selengkapnya, lihat Sistem Pemantauan Kesehatan.

  • Hanya jika cluster Amazon EKS Anda memiliki Karpenter yang berjalan di atasnya, Karpenter NodePool dan NodeClaim versi harus v1.

  • NodeRecoverydiatur ke otomatis. Untuk informasi selengkapnya, lihat Pemulihan simpul otomatis.