Catatan rilis - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Catatan rilis

Lihat catatan rilis berikut untuk melacak pembaruan terbaru untuk pelatihan SageMaker HyperPod checkpointless.

Pelatihan SageMaker HyperPod checkpointless v1.0.0

Tanggal: 03 Des 2025

SageMaker HyperPod Fitur pelatihan checkpointless

  • Peningkatan Inisialisasi Komunikasi Kolektif: Menawarkan metode inisialisasi baru, Tanpa Akar dan TCPStoreless untuk NCCL dan Gloo.

  • Memory-mapped (MMAP) Dataloader: Cache (bertahan) batch yang diambil sebelumnya sehingga tersedia bahkan ketika kesalahan menyebabkan restart pekerjaan pelatihan.

  • Checkpointless: Memungkinkan pemulihan yang lebih cepat dari kesalahan pelatihan klaster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja

  • Dibangun di atas Nvidia Nemo dan PyTorch Lightning: Memanfaatkan kerangka kerja yang kuat ini untuk pelatihan model yang efisien dan fleksibel

SageMaker HyperPod Kontainer Docker pelatihan tanpa pemeriksaan

Pelatihan checkpointless HyperPod dibangun di atas kerangka kerja NVIDIA NeMo . HyperPod pelatihan checkpointless bertujuan untuk memulihkan lebih cepat dari kesalahan pelatihan klaster di lingkungan pelatihan terdistribusi skala besar dengan membuat pengoptimalan tingkat kerangka kerja yang akan disampaikan pada wadah dasar yang berisi gambar dasar dengan NCCL dan pengoptimalan. PyTorch

Ketersediaan

Saat ini gambar hanya tersedia di:

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

tetapi tidak tersedia di 3 Wilayah keikutsertaan berikut:

ap-southeast-3 ap-southeast-4 eu-south-2

Detail kontainer

Pelatihan checkpointless Docker container untuk PyTorch v2.6.0 dengan CUDA v12.9

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0

Paket pra-instal

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0