Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan operator HyperPod pelatihan
Operator SageMaker HyperPod pelatihan Amazon membantu Anda mempercepat pengembangan model AI generatif dengan mengelola pelatihan terdistribusi secara efisien di seluruh cluster GPU besar. Ini memperkenalkan pemulihan kesalahan cerdas, deteksi pekerjaan gantung, dan kemampuan manajemen tingkat proses yang meminimalkan gangguan pelatihan dan mengurangi biaya. Tidak seperti infrastruktur pelatihan tradisional yang membutuhkan restart pekerjaan lengkap ketika kegagalan terjadi, operator ini menerapkan pemulihan proses bedah untuk menjaga pekerjaan pelatihan Anda berjalan lancar.
Operator juga bekerja dengan HyperPod fungsi pemantauan dan observabilitas kesehatan, memberikan visibilitas real-time ke dalam pelaksanaan pelatihan dan pemantauan otomatis metrik penting seperti lonjakan kerugian dan degradasi throughput. Anda dapat menentukan kebijakan pemulihan melalui konfigurasi YAMM sederhana tanpa perubahan kode, memungkinkan Anda merespons dan memulihkan dengan cepat dari status pelatihan yang tidak dapat dipulihkan. Kemampuan pemantauan dan pemulihan ini bekerja sama untuk mempertahankan kinerja pelatihan yang optimal sambil meminimalkan overhead operasional.
Meskipun Kueue tidak diperlukan untuk operator pelatihan ini, administrator klaster Anda dapat menginstal dan mengonfigurasinya untuk meningkatkan kemampuan penjadwalan pekerjaan. Untuk informasi lebih lanjut, lihat dokumentasi resmi untuk Kueue
catatan
Untuk menggunakan operator pelatihan, Anda harus menggunakan rilis HyperPod AMI terbaru. Untuk memutakhirkan, gunakan operasi UpdateClusterSoftwareAPI. Jika Anda menggunakan tata kelola HyperPod tugas, itu juga harus versi terbaru.
Versi yang didukung
Operator HyperPod pelatihan hanya bekerja dengan versi tertentu dari Kubernetes, Kueue, dan. HyperPod Lihat daftar di bawah ini untuk daftar lengkap versi yang kompatibel.
-
Versi Kubernetes yang didukung - 1.28, 1.29, 1.30, 1.31, atau 1.32
-
Rilis HyperPod AMI terbaru. Untuk memutakhirkan ke rilis AMI terbaru, gunakan UpdateClusterSoftwareAPI.
Operator HyperPod pelatihan kompatibel dengan Kueue, yang dapat dikonfigurasi oleh administrator klaster Anda untuk meningkatkan kemampuan penjadwalan pekerjaan. Untuk informasi lebih lanjut, lihat dokumentasi resmi untuk Kueue
Prasyarat
Untuk menggunakan operator HyperPod pelatihan, Anda harus telah menyelesaikan prasyarat berikut:
-
Menginstal AMI terbaru di HyperPod cluster Anda. Untuk informasi selengkapnya, lihat SageMaker HyperPod Rilis AMI untuk Amazon EKS