Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menjalankan pekerjaan di SageMaker HyperPod cluster yang diatur oleh Amazon EKS
Topik berikut memberikan prosedur dan contoh mengakses node komputasi dan menjalankan beban kerja MLpada klaster yang disediakan SageMaker HyperPod yang diatur dengan Amazon EKS. Bergantung pada cara Anda mengatur lingkungan di HyperPod cluster Anda, ada banyak cara untuk menjalankan beban kerja ML pada HyperPod cluster.
catatan
Saat menjalankan pekerjaan melalui SageMaker HyperPod CLI atau kubectl, HyperPod dapat melacak pemanfaatan komputasi (jam GPU/CPU) di seluruh ruang nama (tim). Laporan penggunaan daya metrik ini, yang menyediakan:
-
Visibilitas ke konsumsi sumber daya yang dialokasikan vs. pinjaman
-
Pemanfaatan sumber daya tim untuk audit (hingga 180 hari)
-
Atribusi biaya selaras dengan kebijakan Tata Kelola Tugas
Untuk menggunakan laporan penggunaan, Anda harus menginstal infrastruktur laporan penggunaan. Kami sangat menyarankan untuk mengonfigurasi Tata Kelola Tugas untuk menegakkan kuota komputasi dan mengaktifkan atribusi biaya terperinci.
Untuk informasi selengkapnya tentang menyiapkan dan membuat laporan penggunaan, lihat Melaporkan Penggunaan Komputasi di HyperPod.
Tip
Untuk pengalaman dan panduan langsung tentang cara menyiapkan dan menggunakan SageMaker HyperPod klaster yang diatur dengan Amazon EKS, kami sarankan untuk menggunakan Dukungan Amazon EKS ini di lokakarya
Pengguna ilmuwan data dapat melatih model dasar menggunakan set cluster EKS sebagai orkestrator untuk cluster. SageMaker HyperPod Para ilmuwan memanfaatkan SageMaker HyperPod CLIkubectl
perintah asli untuk menemukan SageMaker HyperPod cluster yang tersedia, mengirimkan pekerjaan pelatihan (Pod), dan mengelola beban kerja mereka. SageMaker HyperPod CLI memungkinkan pengiriman pekerjaan menggunakan file skema pekerjaan pelatihan, dan menyediakan kemampuan untuk daftar pekerjaan, deskripsi, pembatalan, dan eksekusi. Para ilmuwan dapat menggunakan Operator Pelatihan Kubeflow