HyperPod fitur pelatihan checkpointless - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

HyperPod fitur pelatihan checkpointless

Lihat halaman berikut untuk mempelajari tentang fitur pelatihan dalam pelatihan tanpa pemeriksaan.

Repositori pelatihan SageMaker HyperPod tanpa pos pemeriksaan Amazon

HyperPod pelatihan checkpointless mempercepat pemulihan dari kesalahan klaster di lingkungan pelatihan terdistribusi skala besar melalui pengoptimalan tingkat kerangka kerja. Pengoptimalan ini disampaikan melalui image kontainer dasar yang mencakup peningkatan inisialisasi NCCL yang disempurnakan, pengoptimalan pemuatan data, dan komponen pemulihan dalam proses dan tanpa pemeriksaan. Paket pelatihan HyperPod tanpa pos pemeriksaan dibangun di atas fondasi ini.

Pelatihan checkpointless diaktifkan melalui tiga trek pengoptimalan yang berjalan secara bersamaan:

  • Peningkatan initilisasi komunikasi (NCCL dan Gloo) - Menghilangkan kemacetan komunikasi dengan mendesentralisasi informasi peer dan ring peringkat (kotak merah di bawah).

  • Pengoptimalan pemuatan data - Kurangi waktu yang diperlukan untuk menyajikan batch data pertama selama operasi restart (kotak oranye di bawah).

  • Program restart pengurangan overhead - Minimalkan biaya restart dan aktifkan pengisian tanpa pemeriksaan melalui pemulihan proses pada node sehat (kotak biru dan hijau di bawah).