Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Catatan rilis
Lihat catatan rilis berikut untuk melacak pembaruan terbaru untuk pelatihan SageMaker HyperPod checkpointless.
Pelatihan SageMaker HyperPod checkpointless v1.0.0
Tanggal: 03 Des 2025
SageMaker HyperPod Fitur pelatihan checkpointless
-
Peningkatan Inisialisasi Komunikasi Kolektif: Menawarkan metode inisialisasi baru, Tanpa Akar dan TCPStoreless untuk NCCL dan Gloo.
-
Memory-mapped (MMAP) Dataloader: Cache (bertahan) batch yang diambil sebelumnya sehingga tersedia bahkan ketika kesalahan menyebabkan restart pekerjaan pelatihan.
-
Checkpointless: Memungkinkan pemulihan yang lebih cepat dari kesalahan pelatihan klaster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja
-
Dibangun di atas Nvidia Nemo dan PyTorch Lightning: Memanfaatkan kerangka kerja yang kuat ini untuk pelatihan model yang efisien dan fleksibel
SageMaker HyperPod Kontainer Docker pelatihan tanpa pemeriksaan
Pelatihan checkpointless HyperPod dibangun di atas kerangka kerja NVIDIA NeMo
Ketersediaan
Saat ini gambar hanya tersedia di:
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
tetapi tidak tersedia di 3 Wilayah keikutsertaan berikut:
ap-southeast-3 ap-southeast-4 eu-south-2
Detail kontainer
Pelatihan checkpointless Docker container untuk PyTorch v2.6.0 dengan CUDA v12.9
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
Paket pra-instal
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0