릴리스 노트 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

릴리스 노트

SageMaker HyperPod 체크포인트 없는 훈련에 대한 최신 업데이트를 추적하려면 다음 릴리스 정보를 참조하세요.

SageMaker HyperPod 체크포인트 없는 훈련 v1.0.0

날짜: 2025년 12월 3일

SageMaker HyperPod 체크포인트 없는 훈련 기능

  • 집합 통신 초기화 개선 사항: NCCL 및 Gloo용 Rootless 및 TCPStoreless라는 새로운 초기화 방법을 제공합니다.

  • 메모리 매핑(MMAP) 데이터 로더: 장애가 훈련 작업을 다시 시작하는 경우에도 사용할 수 있도록 미리 가져온 배치를 캐싱(지속)합니다.

  • 체크포인트 없음: 프레임워크 수준 최적화를 통해 대규모 분산 훈련 환경에서 클러스터 훈련 결함을 더 빠르게 복구할 수 있습니다.

  • Nvidia Nemo 및 PyTorch Lightning 기반: 효율적이고 유연한 모델 훈련을 위해 이러한 강력한 프레임워크를 활용합니다.

SageMaker HyperPod Checkpointless 훈련 Docker 컨테이너

HyperPod에 대한 체크포인트 없는 훈련은 NVIDIA NeMo 프레임워크를 기반으로 구축되었습니다. HyperPod 체크포인트 없는 훈련은 NCCL 및 PyTorch 최적화를 통해 기본 이미지가 포함된 기본 컨테이너에서 제공되는 프레임워크 수준 최적화를 통해 대규모 분산 훈련 환경에서 클러스터 훈련 장애로부터 더 빠르게 복구하는 것을 목표로 합니다.

가용성

현재 이미지는 다음에서만 사용할 수 있습니다.

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

다음 3개의 옵트인 리전에서는 사용할 수 없습니다.

ap-southeast-3 ap-southeast-4 eu-south-2

컨테이너 세부 정보

CUDA v12.9를 사용하는 PyTorch v2.6.0용 체크포인트 없는 훈련 Docker 컨테이너

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0

사전 설치된 패키지

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0