本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
版本備註
請參閱下列版本備註,以追蹤 SageMaker HyperPod 無檢查點訓練的最新更新。
SageMaker HyperPod 無檢查點訓練 v1.0.0
日期:2025 年 12 月 3 日
SageMaker HyperPod 無檢查點訓練功能
-
集體通訊初始化改進:為 NCCL 和 Gloo 提供新的初始化方法、無根和 TCPStoreless。
-
記憶體映射 (MMAP) 資料載入器:快取 (持久) 預先擷取的批次,因此即使故障導致訓練任務重新啟動,也可以使用這些批次。
-
無檢查點:透過進行架構層級最佳化,在大規模分散式訓練環境中更快速地從叢集訓練故障中復原
-
以 Nvidia Nemo 和 PyTorch Lightning 為基礎: 利用這些強大的架構進行有效率且靈活的模型訓練
SageMaker HyperPod 無檢查點訓練 Docker 容器
HyperPod 上的無檢查點訓練是以 NVIDIA NeMo 架構
可用性
目前映像僅適用於:
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
但不適用於下列 3 個選擇加入區域:
ap-southeast-3 ap-southeast-4 eu-south-2
容器詳細資訊
適用於 PyTorch v2.6.0 搭配 CUDA v12.9 的無檢查點訓練 Docker 容器
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
預先安裝的套件
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0