Cara kerja checkpointing berjenjang terkelola Manfaat

HyperPod pos pemeriksaan berjenjang terkelola

Bagian ini menjelaskan cara kerja pos pemeriksaan berjenjang yang dikelola dan manfaat yang diberikannya untuk pelatihan model skala besar.

Checkpointing berjenjang yang SageMaker HyperPod dikelola Amazon membantu Anda melatih model AI generatif skala besar dengan lebih efisien. Ini menggunakan beberapa tingkatan penyimpanan, termasuk memori CPU cluster Anda. Pendekatan ini mengurangi waktu Anda untuk pemulihan dan meminimalkan kerugian dalam kemajuan pelatihan. Ini juga menggunakan sumber daya memori yang kurang dimanfaatkan dalam infrastruktur pelatihan Anda.

Checkpointing berjenjang terkelola memungkinkan penyimpanan pos pemeriksaan pada frekuensi yang lebih tinggi ke memori. Ini secara berkala mempertahankan mereka untuk penyimpanan yang tahan lama. Ini menjaga kinerja dan keandalan selama proses pelatihan Anda.

Panduan ini mencakup cara menyiapkan, mengonfigurasi, dan menggunakan pos pemeriksaan berjenjang terkelola dengan kerangka PyTorch kerja di kluster Amazon EKS. HyperPod

Cara kerja checkpointing berjenjang terkelola

Checkpointing berjenjang terkelola menggunakan pendekatan penyimpanan multi-tier. Memori CPU berfungsi sebagai tingkat utama untuk menyimpan pos pemeriksaan model. Tingkat sekunder mencakup opsi penyimpanan persisten seperti Amazon S3.

Saat Anda menyimpan pos pemeriksaan, sistem menyimpannya di ruang memori yang dialokasikan di seluruh node cluster Anda. Ini secara otomatis mereplikasi data di seluruh node komputasi yang berdekatan untuk meningkatkan keandalan. Strategi replikasi ini melindungi terhadap kegagalan node tunggal atau ganda sambil menyediakan akses cepat untuk operasi pemulihan.

Sistem juga secara berkala menyimpan pos pemeriksaan ke penyimpanan persisten sesuai dengan konfigurasi Anda. Ini memastikan daya tahan jangka panjang dari kemajuan pelatihan Anda.

Komponen utama meliputi:

Sistem manajemen memori: Daemon manajemen memori yang menyediakan memori terpilah sebagai layanan untuk penyimpanan pos pemeriksaan
HyperPod Pustaka Python: Antarmuka dengan penyimpanan terpilah APIs dan menyediakan utilitas untuk menyimpan, memuat, dan mengelola pos pemeriksaan di seluruh tingkatan
Replikasi pos pemeriksaan: Secara otomatis mereplikasi pos pemeriksaan di beberapa node untuk toleransi kesalahan

Sistem terintegrasi secara mulus dengan loop PyTorch pelatihan melalui panggilan API sederhana. Ini membutuhkan sedikit perubahan pada kode Anda yang ada.

Manfaat

Checkpointing berjenjang terkelola memberikan beberapa keuntungan untuk pelatihan model skala besar:

Peningkatan kegunaan: Mengelola penyimpanan pos pemeriksaan, replikasi, ketekunan, dan pemulihan
Operasi pos pemeriksaan yang lebih cepat: Penyimpanan berbasis memori memberikan waktu penghematan dan pemuatan yang lebih cepat dibandingkan dengan pos pemeriksaan berbasis disk, yang mengarah ke pemulihan yang lebih cepat
Toleransi kesalahan: Replikasi pos pemeriksaan otomatis di seluruh node melindungi terhadap kegagalan node perangkat keras
Perubahan kode minimal: Integrasi API sederhana hanya memerlukan sedikit modifikasi pada skrip pelatihan yang ada
Peningkatan throughput pelatihan: Mengurangi overhead pos pemeriksaan berarti lebih banyak waktu yang dihabiskan untuk pelatihan yang sebenarnya

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menghapus klaster

Penyiapan