版本備註 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

版本備註

請參閱下列版本備註,以追蹤 SageMaker HyperPod 無檢查點訓練的最新更新。

SageMaker HyperPod 無檢查點訓練 v1.0.0

日期:2025 年 12 月 3 日

SageMaker HyperPod 無檢查點訓練功能

  • 集體通訊初始化改進:為 NCCL 和 Gloo 提供新的初始化方法、無根和 TCPStoreless。

  • 記憶體映射 (MMAP) 資料載入器:快取 (持久) 預先擷取的批次,因此即使故障導致訓練任務重新啟動,也可以使用這些批次。

  • 無檢查點:透過進行架構層級最佳化,在大規模分散式訓練環境中更快速地從叢集訓練故障中復原

  • 以 Nvidia Nemo 和 PyTorch Lightning 為基礎: 利用這些強大的架構進行有效率且靈活的模型訓練

SageMaker HyperPod 無檢查點訓練 Docker 容器

HyperPod 上的無檢查點訓練是以 NVIDIA NeMo 架構為基礎。HyperPod 無檢查點訓練旨在透過使用 NCCL 和 PyTorch 最佳化,在包含基礎映像的基礎容器上進行架構層級最佳化,以更快的速度從大規模分散式訓練環境中的叢集訓練故障中復原。

可用性

目前映像僅適用於:

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

但不適用於下列 3 個選擇加入區域:

ap-southeast-3 ap-southeast-4 eu-south-2

容器詳細資訊

適用於 PyTorch v2.6.0 搭配 CUDA v12.9 的無檢查點訓練 Docker 容器

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0

預先安裝的套件

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0