Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pelatihan tanpa pos pemeriksaan di Amazon SageMaker HyperPod
Pelatihan tanpa pos pemeriksaan di Amazon SageMaker HyperPod memungkinkan pemulihan yang lebih cepat dari kesalahan infrastruktur pelatihan. Dokumentasi berikut membantu Anda memulai pelatihan tanpa pemeriksaan dan penyempurnaan untuk model yang didukung. NeMo
Pelatihan tanpa pos pemeriksaan memiliki prasyarat berikut:
-
Menginstal operator pelatihan. Anda harus menginstal v1.2.0 atau lebih tinggi.
Pelatihan checkpointless dibangun di SageMaker HyperPod atas Panduan Pengguna NVIDIA NeMo Framework
HyperPod Resep berikut telah dikonfigurasi sebelumnya dengan pengoptimalan pelatihan tanpa pemeriksaan. Anda dapat menentukan jalur data Anda sebagai bagian dari resep dan menggunakan skrip peluncuran terkait untuk menjalankan pelatihan (lihat panduan mulai cepat di bawah):
| Model | Metode | Size | Node | Instans | Akselerator | Resep | Skrip | Tutorial |
|---|---|---|---|---|---|---|---|---|
| GPT OSS | Contoh finetune lengkap | 120b | 16 | p5.48xlarge | GPU H100 | tautan |
tautan |
tautan |
| GPT OSS | Contoh Lora | 120b | 2 | p5.48xlarge | GPU H100 | tautan |
tautan |
tautan |
| Llama3 | Contoh pretrain | 70b | 16 | p5.48xlarge | GPU H100 | tautan |
tautan |
tautan |
| Llama3 | Contoh Lora | 70b | 2 | p5.48xlarge | GPU H100 | tautan |
tautan |
tautan |
Panduan memulai cepat berikut menyediakan tutorial untuk menggunakan resep pelatihan tanpa pemeriksaan:
Memulai contoh
-
Tutorial - Amazon SageMaker HyperPod Checkpointless Full Finetuning GPT OSS 120b
-
Tutorial - Amazon SageMaker HyperPod Checkpointless PEFT-LoRA GPT OSS 120b
-
Tutorial - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b
-
Tutorial - Amazon SageMaker HyperPod Checkpointless Peft-LoRa Llama 3 70b
Jika Anda ingin melakukan pra-latih atau menyempurnakan model khusus, lihat. Tutorial - Amazon SageMaker HyperPod Checkpointless Pretraining atau Finetuning Model Kustom
Untuk mempelajari lebih lanjut tentang menggabungkan komponen pelatihan tanpa pos pemeriksaan tertentu,. HyperPod fitur pelatihan checkpointless