Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
HyperPod fitur pelatihan checkpointless
Lihat halaman berikut untuk mempelajari tentang fitur pelatihan dalam pelatihan tanpa pemeriksaan.
Topik
Repositori pelatihan SageMaker HyperPod tanpa pos pemeriksaan Amazon
HyperPod pelatihan checkpointless
Pelatihan checkpointless diaktifkan melalui tiga trek pengoptimalan yang berjalan secara bersamaan:
-
Peningkatan initilisasi komunikasi (NCCL dan Gloo) - Menghilangkan kemacetan komunikasi dengan mendesentralisasi informasi peer dan ring peringkat (kotak merah di bawah).
-
Pengoptimalan pemuatan data - Kurangi waktu yang diperlukan untuk menyajikan batch data pertama selama operasi restart (kotak oranye di bawah).
-
Program restart pengurangan overhead - Minimalkan biaya restart dan aktifkan pengisian tanpa pemeriksaan melalui pemulihan proses pada node sehat (kotak biru dan hijau di bawah).