Menggunakan operator HyperPod pelatihan - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan operator HyperPod pelatihan

Operator SageMaker HyperPod pelatihan Amazon membantu Anda mempercepat pengembangan model AI generatif dengan mengelola pelatihan terdistribusi secara efisien di seluruh cluster GPU besar. Ini memperkenalkan pemulihan kesalahan cerdas, deteksi pekerjaan gantung, dan kemampuan manajemen tingkat proses yang meminimalkan gangguan pelatihan dan mengurangi biaya. Tidak seperti infrastruktur pelatihan tradisional yang membutuhkan restart pekerjaan lengkap ketika kegagalan terjadi, operator ini menerapkan pemulihan proses bedah untuk menjaga pekerjaan pelatihan Anda berjalan lancar.

Operator juga bekerja dengan HyperPod fungsi pemantauan dan observabilitas kesehatan, memberikan visibilitas real-time ke dalam pelaksanaan pelatihan dan pemantauan otomatis metrik penting seperti lonjakan kerugian dan degradasi throughput. Anda dapat menentukan kebijakan pemulihan melalui konfigurasi YAMM sederhana tanpa perubahan kode, memungkinkan Anda merespons dan memulihkan dengan cepat dari status pelatihan yang tidak dapat dipulihkan. Kemampuan pemantauan dan pemulihan ini bekerja sama untuk mempertahankan kinerja pelatihan yang optimal sambil meminimalkan overhead operasional.

Meskipun Kueue tidak diperlukan untuk operator pelatihan ini, administrator klaster Anda dapat menginstal dan mengonfigurasinya untuk meningkatkan kemampuan penjadwalan pekerjaan. Untuk informasi lebih lanjut, lihat dokumentasi resmi untuk Kueue.

catatan

Untuk menggunakan operator pelatihan, Anda harus menggunakan rilis HyperPod AMI terbaru. Untuk memutakhirkan, gunakan operasi UpdateClusterSoftwareAPI. Jika Anda menggunakan tata kelola HyperPod tugas, itu juga harus versi terbaru.

Versi yang didukung

Operator HyperPod pelatihan hanya bekerja dengan versi tertentu dari Kubernetes, Kueue, dan. HyperPod Lihat daftar di bawah ini untuk daftar lengkap versi yang kompatibel.

Operator HyperPod pelatihan kompatibel dengan Kueue, yang dapat dikonfigurasi oleh administrator klaster Anda untuk meningkatkan kemampuan penjadwalan pekerjaan. Untuk informasi lebih lanjut, lihat dokumentasi resmi untuk Kueue.

Prasyarat

Untuk menggunakan operator HyperPod pelatihan, Anda harus telah menyelesaikan prasyarat berikut: