Slurm용 SageMaker HyperPod AMI 릴리스 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Slurm용 SageMaker HyperPod AMI 릴리스

다음 릴리스 정보는 Slurm 오케스트레이션을 위한 Amazon SageMaker HyperPod AMI 릴리스의 최신 업데이트를 추적합니다. 이러한 HyperPod AMIs는 AWS Deep Learning Base GPU AMI(Ubuntu 22.04)를 기반으로 합니다. HyperPod 서비스 팀은 SageMaker HyperPod DLAMI를 통해 소프트웨어 패치를 배포합니다. Amazon EKS 오케스트레이션을 위한 HyperPod AMI 릴리스는 섹션을 참조하세요Amazon EKS용 SageMaker HyperPod AMI 릴리스. Amazon SageMaker HyperPod 기능 릴리스에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod 릴리스 정보.

참고

기존 HyperPod 클러스터를 최신 DLAMI로 업데이트하려면 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.

Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 5월 13일

Amazon SageMaker HyperPod는 Slurm 클러스터용 Ubuntu 22.04 LTS를 지원하는 업데이트된 AMI를 릴리스했습니다.는 최신 소프트웨어 스택에 액세스할 수 있도록 AMIs를 AWS 정기적으로 업데이트합니다. 최신 AMI로 업그레이드하면 포괄적인 패키지 업데이트, 워크로드의 성능 및 안정성 향상, 새로운 인스턴스 유형 및 최신 커널 기능과의 호환성을 통해 보안이 향상됩니다.

중요

Ubuntu 20.04 LTS에서 Ubuntu 22.04 LTS로의 업데이트는 Ubuntu 20.04용으로 설계된 소프트웨어 및 구성과의 호환성에 영향을 미칠 수 있는 변경 사항을 도입합니다.

Ubuntu 22.04 AMI의 키 업데이트

다음 표에는 이전 AMI와 비교한 Ubuntu 22.04 AMI의 구성 요소 버전이 나열되어 있습니다.

이전 AMI와 비교한 Ubuntu 22.04 AMI의 구성 요소 버전
구성 요소 이전 버전 업데이트된 버전

Ubuntu OS

20.04 LTS

22.04 LTS

Slurm

24.11

24.11(변경되지 않음)

Python

3.8(기본값)

3.10(기본값)

Amazon FSx의 EFA(Elastic Fabric Adapter)

지원되지 않음

지원

Linux 커널

5.15

6.8

GNU C 라이브러리(glibc)

2.31

2.35

GNU 컴파일러 컬렉션(GCC)

9.4.0

11.4.0

libc6

≤ 2.31

≥ 2.35 지원

NFS(Network File System)

1:1.3.4

1:2.6.1

참고

Slurm 버전(24.11)은 변경되지 않지만이 AMI의 기본 OS 및 라이브러리 업데이트는 시스템 동작 및 워크로드 호환성에 영향을 미칠 수 있습니다. 프로덕션 클러스터를 업그레이드하기 전에 워크로드를 테스트해야 합니다.

Ubuntu 22.04 AMI로 업그레이드

클러스터를 Ubuntu 22.04 AMI로 업그레이드하기 전에 다음 준비 단계를 완료하고 업그레이드 요구 사항을 검토합니다. 업그레이드 실패 문제를 해결하려면 섹션을 참조하세요업그레이드 실패 문제 해결.

Python 호환성 검토

Ubuntu 22.04 AMI는 Python 3.8에서 업그레이드된 Python 3.10을 기본 버전으로 사용합니다. Python 3.10은 대부분의 Python 3.8 코드와 호환성을 유지하지만 업그레이드하기 전에 기존 워크로드를 테스트해야 합니다. 워크로드에 Python 3.8이 필요한 경우 수명 주기 스크립트에서 다음 명령을 사용하여 설치할 수 있습니다.

yum install python-3.8

클러스터를 업그레이드하기 전에 다음을 수행해야 합니다.

  1. Python 3.10과의 코드 호환성을 테스트합니다.

  2. 수명 주기 스크립트가 새 환경에서 작동하는지 확인합니다.

  3. 모든 종속성이 새 Python 버전과 호환되는지 확인합니다.

  4. GitHub에서 기본 수명 주기 스크립트를 복사하여 HyperPod 클러스터를 생성한 경우 Ubuntu 22로 업그레이드하기 전에 setup_mariadb_accounting.sh 파일에 다음 명령을 추가합니다. 전체 스크립트는 GitHub의 setup_mariadb_accounting.sh를 참조하세요.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Slurm 클러스터 업그레이드

다음 두 가지 방법으로 새 AMI를 사용하도록 Slurm 클러스터를 업그레이드할 수 있습니다.

  1. CreateCluster API를 사용하여 새 클러스터를 생성합니다.

  2. UpdateClusterSoftware API를 사용하여 기존 클러스터의 소프트웨어를 업데이트합니다.

검증된 구성

AWS 는 G5, G6, G6e, P4d, P5 및 Trn1 인스턴스에서 다음과 같은 다양한 분산 훈련 워크로드 및 인프라 기능을 테스트했습니다.

  • PyTorch를 사용한 분산 훈련(예: FSDP, NeMo, LLaMA, MNIST).

  • Nvidia(P/G 시리즈) 및 AWS Neuron(Trn1)을 사용하여 인스턴스 유형 전반에서 액셀러레이터 테스트.

  • 자동 재개심층 상태 확인을 포함하는 복원력 기능입니다.

클러스터 가동 중지 시간 및 가용성

업그레이드 프로세스 중에는 클러스터를 사용할 수 없습니다. 중단을 최소화하려면 다음을 수행합니다.

  • 더 작은 클러스터에서 업그레이드 프로세스를 테스트합니다.

  • 업그레이드 전에 체크포인트를 생성한 다음 업그레이드가 완료된 후 기존 체크포인트에서 훈련 워크로드를 다시 시작합니다.

업그레이드 실패 문제 해결

업그레이드에 실패하면 먼저 장애가 수명 주기 스크립트와 관련이 있는지 확인합니다. 이러한 스크립트는 일반적으로 구문 오류, 종속성 누락 또는 잘못된 구성으로 인해 실패합니다.

수명 주기 스크립트와 관련된 실패를 조사하려면 CloudWatch 로그를 확인합니다. 모든 SageMaker HyperPod 이벤트 및 로그는 로그 그룹에 저장됩니다/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. 특히 스크립트 실행 중 발생하는 오류에 대한 자세한 정보를 LifecycleConfig/[instance-group-name]/[instance-id]제공하는 로그 스트림을 살펴봅니다.

업그레이드 실패가 수명 주기 스크립트와 관련이 없는 경우 클러스터 ARN, 오류 로그 및 타임스탬프를 포함한 관련 정보를 수집한 다음 AWS Support에 문의하여 추가 지원을 받으세요.

Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 5월 7일

Amazon SageMaker HyperPod for Slurm은 Ubuntu 22.04(이전 Ubuntu 20.04부터)로 메이저 OS 버전 업그레이드를 릴리스했습니다. 자세한 내용은 DLAMI Ubuntu 22.04(릴리스 정보 )를 참조하세요Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.

키 패키지 업그레이드:

  • Ubuntu 22.04 LTS(20.04부터)

  • Python 버전:

    • Python 3.10은 이제 Slurm AMI Ubuntu 22.04의 기본 Python 버전입니다.

    • 이 업그레이드를 통해 Python 3.10에 도입된 최신 기능, 성능 개선 및 버그 수정에 액세스할 수 있습니다.

  • FSx에서 EFA 지원

  • 새로운 Linux 커널 버전 6.8(5.15에서 업데이트됨)

  • Glibc 버전: 2.35(2.31에서 업데이트됨)

  • GCC 버전: 11.4.0(9.4.0에서 업데이트됨)

  • 최신 libc6 버전 지원(libc6 버전 <= 2.31부터)

  • NFS 버전: 1:2.6.1(1:1.3.4에서 업데이트됨)

Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 4월 28일

Slurm 개선 사항

  • NVIDIA 드라이버를 버전 550.144.03에서 550.163.01로 업그레이드했습니다. 이 업그레이드는 2025년 4월 NVIDIA GPU 디스플레이 보안 공지에 있는 일반적인 취약성 및 노출(CVEs)을 해결하기 위한 것입니다. https://nvidia.custhelp.com/app/answers/detail/a_id/5630

Slurm 지원을 위한 Amazon SageMaker HyperPod DLAMI

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown: 2.22.61.0

Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 2월 18일

Slurm 개선 사항

  • Slurm 버전을 24.11로 업그레이드했습니다.

  • Elastic Fabric Adapter(EFA) 버전을 1.37.0에서 1.38.0으로 업그레이드했습니다.

  • 이제 EFA에 AWS OFI NCCL 플러그인이 포함됩니다. 이 플러그인은 원래 /opt/aws-ofi-nccl/ 위치가 아닌 /opt/amazon/ofi-nccl 디렉터리에서 찾을 수 있습니다. LD_LIBRARY_PATH 환경 변수를 업데이트해야 하는 경우 OFI NCCL 플러그인의 새 /opt/amazon/ofi-nccl 위치를 가리키도록 경로를 수정해야 합니다.

  • 이러한 DLAMIs. GNU emac에서 emac을 설치할 수 있습니다.

Slurm 지원을 위한 Amazon SageMaker HyperPod DLAMI

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/unknown: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown: 2.20.204.0 amd64

Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 12월 21일

Slurm 지원을 위한 SageMaker HyperPod DLAMI

Deep Learning Slurm AMI
  • NVIDIA 드라이버: 550.127.05

  • EFA 드라이버: 2.13.0-1

  • 최신 버전의 AWS Neuron SDK 설치

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2.18.20.0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19.0

    • aws-neuronx-tools: 2.19.0.0

Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 11월 24일

AMI 일반 업데이트

  • MEL (멜버른) 리전에서 릴리스되었습니다.

  • SageMaker HyperPod 기본 DLAMI를 다음 버전으로 업데이트했습니다.

    • Slurm: 2024-11-22.

Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 11월 15일

AMI 일반 업데이트

  • 최신 libnvidia-nscq-xxx 패키지를 설치했습니다.

Slurm 지원을 위한 SageMaker HyperPod DLAMI

Deep Learning Slurm AMI
  • NVIDIA 드라이버: 550.127.05

  • EFA 드라이버: 2.13.0-1

  • 최신 버전의 AWS Neuron SDK 설치

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 11월 11일

AMI 일반 업데이트

  • SageMaker HyperPod 기본 DLAMI를 다음 버전으로 업데이트했습니다.

    • Slurm: 2024-10-23.

Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 10월 21일

AMI 일반 업데이트

  • SageMaker HyperPod 기본 DLAMI를 다음 버전으로 업데이트했습니다.

    • Slurm: 2024-09-27.

Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 9월 10일

Slurm 지원을 위한 SageMaker HyperPod DLAMI

Deep Learning Slurm AMI
  • NVIDIA 드라이버 v550.90.07 설치

  • EFA 드라이버 v2.10 설치

  • 최신 버전의 AWS Neuron SDK를 설치했습니다.

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

Slurm용 SageMaker HyperPod AMI 릴리스: 2024년 3월 14일

Slurm용 HyperPod DLAMI 소프트웨어 패치

  • Slurm을 v23.11.1로 업그레이드

  • PMIx가 탑재된 Slurm을 사용 설정하기 위해 OpenPMIx v4.2.6이 추가되었습니다.

  • 2023-10-26에 릴리스된 AWS Deep Learning Base GPU AMI(Ubuntu 20.04) 기반

  • 기본 AMI 외에도 이 HyperPod DLAMI에 사전 설치된 패키지의 전체 목록

    • Slurm : v23.11.1

    • OpenPMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • 클러스터 상태 확인 및 자동 재개와 같은 기능을 지원하는 SageMaker HyperPod 소프트웨어 패키지

업그레이드 단계

  • 다음 명령을 실행하여 UpdateClusterSoftware API를 호출하여 기존 HyperPod 클러스터를 최신 HyperPod DLAMI로 업데이트합니다. 자세한 지침은 클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트 섹션을 참조하세요.

    중요

    이 API를 실행하기 전에 작업을 백업합니다. 패치 프로세스는 루트 볼륨을 업데이트된 AMI로 대체합니다. 즉, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 SageMaker HyperPod에서 제공하는 백업 스크립트 사용 단원을 참조하십시오.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    참고

    HyperPod 클러스터를 업데이트하려면 AWS CLI 명령을 실행해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.

Slurm용 SageMaker HyperPod AMI 릴리스: 2023년 11월 29일

Slurm용 HyperPod DLAMI 소프트웨어 패치

HyperPod 서비스 팀은 SageMaker HyperPod DLAMI를 통해 소프트웨어 패치를 배포합니다. 최신 HyperPod DLAMI에 대한 다음 세부 정보를 참조하세요.

  • 2023-10-18에 릴리스된 AWS Deep Learning Base GPU AMI(Ubuntu 20.04) 기반

  • 기본 AMI 외에도 이 HyperPod DLAMI에 사전 설치된 패키지의 전체 목록

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • 클러스터 상태 확인 및 자동 재개와 같은 기능을 지원하는 SageMaker HyperPod 소프트웨어 패키지