Pelatihan tanpa pos pemeriksaan di Amazon SageMaker HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pelatihan tanpa pos pemeriksaan di Amazon SageMaker HyperPod

Pelatihan tanpa pos pemeriksaan di Amazon SageMaker HyperPod memungkinkan pemulihan yang lebih cepat dari kesalahan infrastruktur pelatihan. Dokumentasi berikut membantu Anda memulai pelatihan tanpa pemeriksaan dan penyempurnaan untuk model yang didukung. NeMo

Pelatihan tanpa pos pemeriksaan memiliki prasyarat berikut:

Pelatihan checkpointless dibangun di SageMaker HyperPod atas Panduan Pengguna NVIDIA NeMo Framework. Anda dapat menjalankan pelatihan tanpa pemeriksaan dengan resep yang telah dibuat sebelumnya SageMaker HyperPod . Jika Anda terbiasa NeMo, proses menggunakan resep pelatihan tanpa pemeriksaan serupa. Dengan perubahan kecil, Anda dapat mulai melatih model menggunakan fitur pelatihan tanpa pemeriksaan yang memungkinkan Anda pulih dengan cepat dari kesalahan pelatihan.

HyperPod Resep berikut telah dikonfigurasi sebelumnya dengan pengoptimalan pelatihan tanpa pemeriksaan. Anda dapat menentukan jalur data Anda sebagai bagian dari resep dan menggunakan skrip peluncuran terkait untuk menjalankan pelatihan (lihat panduan mulai cepat di bawah):

Model Metode Size Node Instans Akselerator Resep Skrip Tutorial
GPT OSS Contoh finetune lengkap 120b 16 p5.48xlarge GPU H100 tautan tautan tautan
GPT OSS Contoh Lora 120b 2 p5.48xlarge GPU H100 tautan tautan tautan
Llama3 Contoh pretrain 70b 16 p5.48xlarge GPU H100 tautan tautan tautan
Llama3 Contoh Lora 70b 2 p5.48xlarge GPU H100 tautan tautan tautan

Panduan memulai cepat berikut menyediakan tutorial untuk menggunakan resep pelatihan tanpa pemeriksaan:

Memulai contoh

Jika Anda ingin melakukan pra-latih atau menyempurnakan model khusus, lihat. Tutorial - Amazon SageMaker HyperPod Checkpointless Pretraining atau Finetuning Model Kustom

Untuk mempelajari lebih lanjut tentang menggabungkan komponen pelatihan tanpa pos pemeriksaan tertentu,. HyperPod fitur pelatihan checkpointless