기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
릴리스 노트
SageMaker HyperPod 체크포인트 없는 훈련에 대한 최신 업데이트를 추적하려면 다음 릴리스 정보를 참조하세요.
SageMaker HyperPod 체크포인트 없는 훈련 v1.0.0
날짜: 2025년 12월 3일
SageMaker HyperPod 체크포인트 없는 훈련 기능
-
집합 통신 초기화 개선 사항: NCCL 및 Gloo용 Rootless 및 TCPStoreless라는 새로운 초기화 방법을 제공합니다.
-
메모리 매핑(MMAP) 데이터 로더: 장애가 훈련 작업을 다시 시작하는 경우에도 사용할 수 있도록 미리 가져온 배치를 캐싱(지속)합니다.
-
체크포인트 없음: 프레임워크 수준 최적화를 통해 대규모 분산 훈련 환경에서 클러스터 훈련 결함을 더 빠르게 복구할 수 있습니다.
-
Nvidia Nemo 및 PyTorch Lightning 기반: 효율적이고 유연한 모델 훈련을 위해 이러한 강력한 프레임워크를 활용합니다.
SageMaker HyperPod Checkpointless 훈련 Docker 컨테이너
HyperPod에 대한 체크포인트 없는 훈련은 NVIDIA NeMo 프레임워크
가용성
현재 이미지는 다음에서만 사용할 수 있습니다.
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
다음 3개의 옵트인 리전에서는 사용할 수 없습니다.
ap-southeast-3 ap-southeast-4 eu-south-2
컨테이너 세부 정보
CUDA v12.9를 사용하는 PyTorch v2.6.0용 체크포인트 없는 훈련 Docker 컨테이너
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
사전 설치된 패키지
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0