Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
HyperPod pos pemeriksaan berjenjang terkelola
Bagian ini menjelaskan cara kerja pos pemeriksaan berjenjang yang dikelola dan manfaat yang diberikannya untuk pelatihan model skala besar.
Checkpointing berjenjang yang SageMaker HyperPod dikelola Amazon membantu Anda melatih model AI generatif skala besar dengan lebih efisien. Ini menggunakan beberapa tingkatan penyimpanan, termasuk memori CPU cluster Anda. Pendekatan ini mengurangi waktu Anda untuk pemulihan dan meminimalkan kerugian dalam kemajuan pelatihan. Ini juga menggunakan sumber daya memori yang kurang dimanfaatkan dalam infrastruktur pelatihan Anda.
Checkpointing berjenjang terkelola memungkinkan penyimpanan pos pemeriksaan pada frekuensi yang lebih tinggi ke memori. Ini secara berkala mempertahankan mereka untuk penyimpanan yang tahan lama. Ini menjaga kinerja dan keandalan selama proses pelatihan Anda.
Panduan ini mencakup cara menyiapkan, mengonfigurasi, dan menggunakan pos pemeriksaan berjenjang terkelola dengan kerangka PyTorch kerja di kluster Amazon EKS. HyperPod
Cara kerja checkpointing berjenjang terkelola
Checkpointing berjenjang terkelola menggunakan pendekatan penyimpanan multi-tier. Memori CPU berfungsi sebagai tingkat utama untuk menyimpan pos pemeriksaan model. Tingkat sekunder mencakup opsi penyimpanan persisten seperti Amazon S3.
Saat Anda menyimpan pos pemeriksaan, sistem menyimpannya di ruang memori yang dialokasikan di seluruh node cluster Anda. Ini secara otomatis mereplikasi data di seluruh node komputasi yang berdekatan untuk meningkatkan keandalan. Strategi replikasi ini melindungi terhadap kegagalan node tunggal atau ganda sambil menyediakan akses cepat untuk operasi pemulihan.
Sistem juga secara berkala menyimpan pos pemeriksaan ke penyimpanan persisten sesuai dengan konfigurasi Anda. Ini memastikan daya tahan jangka panjang dari kemajuan pelatihan Anda.
Komponen utama meliputi:
-
Sistem manajemen memori: Daemon manajemen memori yang menyediakan memori terpilah sebagai layanan untuk penyimpanan pos pemeriksaan
-
HyperPod Pustaka Python: Antarmuka dengan penyimpanan terpilah APIs dan menyediakan utilitas untuk menyimpan, memuat, dan mengelola pos pemeriksaan di seluruh tingkatan
-
Replikasi pos pemeriksaan: Secara otomatis mereplikasi pos pemeriksaan di beberapa node untuk toleransi kesalahan
Sistem terintegrasi secara mulus dengan loop PyTorch pelatihan melalui panggilan API sederhana. Ini membutuhkan sedikit perubahan pada kode Anda yang ada.
Manfaat
Checkpointing berjenjang terkelola memberikan beberapa keuntungan untuk pelatihan model skala besar:
-
Peningkatan kegunaan: Mengelola penyimpanan pos pemeriksaan, replikasi, ketekunan, dan pemulihan
-
Operasi pos pemeriksaan yang lebih cepat: Penyimpanan berbasis memori memberikan waktu penghematan dan pemuatan yang lebih cepat dibandingkan dengan pos pemeriksaan berbasis disk, yang mengarah ke pemulihan yang lebih cepat
-
Toleransi kesalahan: Replikasi pos pemeriksaan otomatis di seluruh node melindungi terhadap kegagalan node perangkat keras
-
Perubahan kode minimal: Integrasi API sederhana hanya memerlukan sedikit modifikasi pada skrip pelatihan yang ada
-
Peningkatan throughput pelatihan: Pengurangan overhead pos pemeriksaan berarti lebih banyak waktu yang dihabiskan untuk pelatihan yang sebenarnya