기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Slurm용 SageMaker HyperPod AMI 릴리스
다음 릴리스 정보는 Slurm 오케스트레이션을 위한 Amazon SageMaker HyperPod AMI 릴리스의 최신 업데이트를 추적합니다. 이러한 HyperPod AMIs는 AWS Deep Learning Base GPU AMI(Ubuntu 22.04)
참고
기존 HyperPod 클러스터를 최신 DLAMI로 업데이트하려면 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.
Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 5월 13일
Amazon SageMaker HyperPod는 Slurm 클러스터용 Ubuntu 22.04 LTS를 지원하는 업데이트된 AMI를 릴리스했습니다.는 최신 소프트웨어 스택에 액세스할 수 있도록 AMIs를 AWS 정기적으로 업데이트합니다. 최신 AMI로 업그레이드하면 포괄적인 패키지 업데이트, 워크로드의 성능 및 안정성 향상, 새로운 인스턴스 유형 및 최신 커널 기능과의 호환성을 통해 보안이 향상됩니다.
중요
Ubuntu 20.04 LTS에서 Ubuntu 22.04 LTS로의 업데이트는 Ubuntu 20.04용으로 설계된 소프트웨어 및 구성과의 호환성에 영향을 미칠 수 있는 변경 사항을 도입합니다.
이 릴리스 정보에는 다음이 표시됩니다.
Ubuntu 22.04 AMI의 키 업데이트
다음 표에는 이전 AMI와 비교한 Ubuntu 22.04 AMI의 구성 요소 버전이 나열되어 있습니다.
구성 요소 | 이전 버전 | 업데이트된 버전 |
---|---|---|
Ubuntu OS |
20.04 LTS |
22.04 LTS |
Slurm |
24.11 |
24.11(변경되지 않음) |
Python |
3.8(기본값) |
3.10(기본값) |
Amazon FSx의 EFA(Elastic Fabric Adapter) |
지원되지 않음 |
지원 |
Linux 커널 |
5.15 |
6.8 |
GNU C 라이브러리(glibc) |
2.31 |
2.35 |
GNU 컴파일러 컬렉션(GCC) |
9.4.0 |
11.4.0 |
libc6 |
≤ 2.31 |
≥ 2.35 지원 |
NFS(Network File System) |
1:1.3.4 |
1:2.6.1 |
참고
Slurm 버전(24.11)은 변경되지 않지만이 AMI의 기본 OS 및 라이브러리 업데이트는 시스템 동작 및 워크로드 호환성에 영향을 미칠 수 있습니다. 프로덕션 클러스터를 업그레이드하기 전에 워크로드를 테스트해야 합니다.
Ubuntu 22.04 AMI로 업그레이드
클러스터를 Ubuntu 22.04 AMI로 업그레이드하기 전에 다음 준비 단계를 완료하고 업그레이드 요구 사항을 검토합니다. 업그레이드 실패 문제를 해결하려면 섹션을 참조하세요업그레이드 실패 문제 해결.
Python 호환성 검토
Ubuntu 22.04 AMI는 Python 3.8에서 업그레이드된 Python 3.10을 기본 버전으로 사용합니다. Python 3.10은 대부분의 Python 3.8 코드와 호환성을 유지하지만 업그레이드하기 전에 기존 워크로드를 테스트해야 합니다. 워크로드에 Python 3.8이 필요한 경우 수명 주기 스크립트에서 다음 명령을 사용하여 설치할 수 있습니다.
yum install python-3.8
클러스터를 업그레이드하기 전에 다음을 수행해야 합니다.
-
Python 3.10과의 코드 호환성을 테스트합니다.
-
수명 주기 스크립트가 새 환경에서 작동하는지 확인합니다.
-
모든 종속성이 새 Python 버전과 호환되는지 확인합니다.
-
GitHub에서 기본 수명 주기 스크립트를 복사하여 HyperPod 클러스터를 생성한 경우 Ubuntu 22로 업그레이드하기 전에
setup_mariadb_accounting.sh
파일에 다음 명령을 추가합니다. 전체 스크립트는 GitHub의 setup_mariadb_accounting.sh를 참조하세요. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Slurm 클러스터 업그레이드
다음 두 가지 방법으로 새 AMI를 사용하도록 Slurm 클러스터를 업그레이드할 수 있습니다.
-
CreateCluster
API를 사용하여 새 클러스터를 생성합니다. -
UpdateClusterSoftware
API를 사용하여 기존 클러스터의 소프트웨어를 업데이트합니다.
검증된 구성
AWS 는 G5, G6, G6e, P4d, P5 및 Trn1 인스턴스에서 다음과 같은 다양한 분산 훈련 워크로드 및 인프라 기능을 테스트했습니다.
클러스터 가동 중지 시간 및 가용성
업그레이드 프로세스 중에는 클러스터를 사용할 수 없습니다. 중단을 최소화하려면 다음을 수행합니다.
-
더 작은 클러스터에서 업그레이드 프로세스를 테스트합니다.
-
업그레이드 전에 체크포인트를 생성한 다음 업그레이드가 완료된 후 기존 체크포인트에서 훈련 워크로드를 다시 시작합니다.
업그레이드 실패 문제 해결
업그레이드에 실패하면 먼저 장애가 수명 주기 스크립트와 관련이 있는지 확인합니다. 이러한 스크립트는 일반적으로 구문 오류, 종속성 누락 또는 잘못된 구성으로 인해 실패합니다.
수명 주기 스크립트와 관련된 실패를 조사하려면 CloudWatch 로그를 확인합니다. 모든 SageMaker HyperPod 이벤트 및 로그는 로그 그룹에 저장됩니다/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
. 특히 스크립트 실행 중 발생하는 오류에 대한 자세한 정보를 LifecycleConfig/[instance-group-name]/[instance-id]
제공하는 로그 스트림을 살펴봅니다.
업그레이드 실패가 수명 주기 스크립트와 관련이 없는 경우 클러스터 ARN, 오류 로그 및 타임스탬프를 포함한 관련 정보를 수집한 다음 AWS Support
Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 5월 7일
Amazon SageMaker HyperPod for Slurm은 Ubuntu 22.04(이전 Ubuntu 20.04부터)로 메이저 OS 버전 업그레이드를 릴리스했습니다. 자세한 내용은 DLAMI Ubuntu 22.04(릴리스 정보Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
.
키 패키지 업그레이드:
-
Ubuntu 22.04 LTS(20.04부터)
-
Python 버전:
-
Python 3.10은 이제 Slurm AMI Ubuntu 22.04의 기본 Python 버전입니다.
-
이 업그레이드를 통해 Python 3.10에 도입된 최신 기능, 성능 개선 및 버그 수정에 액세스할 수 있습니다.
-
-
FSx에서 EFA 지원
-
새로운 Linux 커널 버전 6.8(5.15에서 업데이트됨)
-
Glibc 버전: 2.35(2.31에서 업데이트됨)
-
GCC 버전: 11.4.0(9.4.0에서 업데이트됨)
-
최신 libc6 버전 지원(libc6 버전 <= 2.31부터)
-
NFS 버전: 1:2.6.1(1:1.3.4에서 업데이트됨)
Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 4월 28일
Slurm 개선 사항
-
NVIDIA 드라이버를 버전 550.144.03에서 550.163.01로 업그레이드했습니다. 이 업그레이드는 2025년 4월 NVIDIA GPU 디스플레이 보안 공지에 있는 일반적인 취약성 및 노출(CVEs)을 해결하기 위한 것입니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5630
Slurm 지원을 위한 Amazon SageMaker HyperPod DLAMI
Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 2월 18일
Slurm 개선 사항
-
Slurm 버전을 24.11로 업그레이드했습니다.
-
Elastic Fabric Adapter(EFA) 버전을 1.37.0에서 1.38.0으로 업그레이드했습니다.
-
이제 EFA에 AWS OFI NCCL 플러그인이 포함됩니다. 이 플러그인은 원래
/opt/aws-ofi-nccl/
위치가 아닌/opt/amazon/ofi-nccl
디렉터리에서 찾을 수 있습니다.LD_LIBRARY_PATH
환경 변수를 업데이트해야 하는 경우 OFI NCCL 플러그인의 새/opt/amazon/ofi-nccl
위치를 가리키도록 경로를 수정해야 합니다. -
이러한 DLAMIs. GNU emac에서 emac을 설치할 수 있습니다.
Slurm 지원을 위한 Amazon SageMaker HyperPod DLAMI
Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 12월 21일
Slurm 지원을 위한 SageMaker HyperPod DLAMI
Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 11월 24일
AMI 일반 업데이트
-
MEL
(멜버른) 리전에서 릴리스되었습니다. -
SageMaker HyperPod 기본 DLAMI를 다음 버전으로 업데이트했습니다.
-
Slurm: 2024-11-22.
-
Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 11월 15일
AMI 일반 업데이트
-
최신
libnvidia-nscq-xxx
패키지를 설치했습니다.
Slurm 지원을 위한 SageMaker HyperPod DLAMI
Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 11월 11일
AMI 일반 업데이트
-
SageMaker HyperPod 기본 DLAMI를 다음 버전으로 업데이트했습니다.
-
Slurm: 2024-10-23.
-
Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 10월 21일
AMI 일반 업데이트
-
SageMaker HyperPod 기본 DLAMI를 다음 버전으로 업데이트했습니다.
-
Slurm: 2024-09-27.
-
Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 9월 10일
Slurm 지원을 위한 SageMaker HyperPod DLAMI
Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 3월 14일
Slurm용 HyperPod DLAMI 소프트웨어 패치
-
Slurm
을 v23.11.1로 업그레이드 -
PMIx가 탑재된 Slurm
을 사용 설정하기 위해 OpenPMIx v4.2.6이 추가되었습니다. -
2023-10-26에 릴리스된 AWS Deep Learning Base GPU AMI(Ubuntu 20.04)
기반 -
기본 AMI 외에도 이 HyperPod DLAMI에 사전 설치된 패키지의 전체 목록
업그레이드 단계
-
다음 명령을 실행하여 UpdateClusterSoftware API를 호출하여 기존 HyperPod 클러스터를 최신 HyperPod DLAMI로 업데이트합니다. 자세한 지침은 클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트 섹션을 참조하세요.
중요
이 API를 실행하기 전에 작업을 백업합니다. 패치 프로세스는 루트 볼륨을 업데이트된 AMI로 대체합니다. 즉, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 SageMaker HyperPod에서 제공하는 백업 스크립트 사용 단원을 참조하십시오.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
참고
HyperPod 클러스터를 업데이트하려면 AWS CLI 명령을 실행해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.
Slurm용 SageMaker HyperPod AMI 릴리스: 2023년 11월 29일
Slurm용 HyperPod DLAMI 소프트웨어 패치
HyperPod 서비스 팀은 SageMaker HyperPod DLAMI를 통해 소프트웨어 패치를 배포합니다. 최신 HyperPod DLAMI에 대한 다음 세부 정보를 참조하세요.
-
2023-10-18에 릴리스된 AWS Deep Learning Base GPU AMI(Ubuntu 20.04)
기반 -
기본 AMI 외에도 이 HyperPod DLAMI에 사전 설치된 패키지의 전체 목록
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2.* -
aws-neuronx-collectives
: v2.* -
aws-neuronx-runtime-lib
: v2.* -
aws-neuronx-tools
: v2.* -
클러스터 상태 확인 및 자동 재개와 같은 기능을 지원하는 SageMaker HyperPod 소프트웨어 패키지
-