SageMaker HyperPod Rilasci AMI per Slurm - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPod Rilasci AMI per Slurm

Le seguenti note di rilascio tengono traccia degli ultimi aggiornamenti per le versioni di Amazon SageMaker HyperPod AMI per l'orchestrazione di Slurm. Questi HyperPod AMIs sono basati sull'AMI GPU AWS Deep Learning Base (Ubuntu 22.04). Il team HyperPod di assistenza distribuisce le patch software tramite. SageMaker HyperPod DLAMI Per le versioni HyperPod AMI per l'orchestrazione di Amazon EKS, consulta. SageMaker HyperPod Versioni AMI per Amazon EKS Per informazioni sulle versioni delle SageMaker HyperPod funzionalità di Amazon, consultaNote di SageMaker HyperPod rilascio di Amazon.

Nota

Per aggiornare HyperPod i cluster esistenti con il DLAMI più recente, vedere. Aggiorna il software della SageMaker HyperPod piattaforma di un cluster

SageMaker HyperPod Versioni AMI per Slurm: 22 novembre 2025

Aggiornamenti generali AMI

SageMaker HyperPod Supporto DLAMI per Slurm

Questo rilascio include gli aggiornamenti seguenti:

Slurm (arm64)
  • Versione del kernel Linux: 6.8

  • Versione Glibc: 2.35

  • Versione OpenSSL: 3.0.2

  • FSx Versione Lustre Client: 2.15.6-1fsx21

  • Versione di esecuzione: 1.3.3

  • Versione containerd: containerd containerd.io v2.1.5

  • Versione del driver NVIDIA: 580.95.05

  • Versione CUDA: 12.6, 12.8, 12.9, 13.0

  • Versione EFA Installer: 2.1.0amzn5.0

  • Versione Python: 3.10.12

  • Versione Slurm: 24.11.0

  • versione nvme-cli: 1.16

  • versione raccolta: 5.12.0.

  • versione lustre-client: 2.15.6-1fsx21

  • versione nvidia-imex: 580.95.05-1

  • versione systemd: 249

  • versione openssh: 8.9

  • versione sudo: 1.9.9

  • versione ufw: 0.36.1

  • versione gcc: 11.4.0

  • versione cmake: 3.22.1

  • versione git: 2.34.1

  • crea versione: 4.3

  • versione cloudwatch-agent: 1.300062.0b1304-1

  • versione nfs-utils: 1:2.6 .1-1ubuntu1.2

  • iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1

  • versione lvm2:2.03.11

  • versione ec2-instance-connect: 1.1.14-0ubuntu1.1

  • versione rdma-core: 58.amzn0-1

Slurm (x86_64)
  • Versione del kernel Linux: 6.8

  • Versione Glibc: 2.35

  • Versione OpenSSL: 3.0.2

  • FSx Versione Lustre Client: 2.15.6-1fsx21

  • Versione di esecuzione: 1.3.3

  • Versione containerd: containerd containerd.io v2.1.5

  • Versione DMS di aws Neuronx: 2.24.7.0

  • Versione del driver NVIDIA: 580.95.05

  • Versione CUDA: 12.6, 12.8, 12.9, 13.0

  • Versione del programma di installazione EFA: 2.3.1amzn1.0

  • Versione Python: 3.10.12

  • Versione Slurm: 24.11.0

  • versione nvme-cli: 1.16

  • versione antistress: 1.0.5

  • versione raccolta: 5.12.0.

  • versione lustre-client: 2.15.6-1fsx21

  • versione systemd: 249

  • versione openssh: 8.9

  • versione sudo: 1.9.9

  • versione ufw: 0.36.1

  • versione gcc: 11.4.0

  • versione cmake: 3.22.1

  • make versione: 4.3

  • versione cloudwatch-agent: 1.300062.0b1304-1

  • versione nfs-utils: 1:2.6 .1-1ubuntu1.2

  • iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1

  • versione lvm2:2.03.11

  • versione ec2-instance-connect: 1.1.14-0ubuntu1.1

  • versione rdma-core: 59.amzn0-1

SageMaker HyperPod note di rilascio: 07 novembre 2025

L'AMI include quanto segue:

  • SupportatoServizio AWS: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Architettura di calcolo: ARM64

  • Pacchetti aggiornati: NVIDIA Driver: 580.95.05

  • Versioni CUDA: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0

  • Correzioni di sicurezza: patch Runc Security

SageMaker HyperPod note di rilascio: 29 settembre 2025

L'AMI include quanto segue:

  • SupportatoServizio AWS: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Architettura di calcolo: ARM64

  • Pacchetti aggiornati: NVIDIA Driver: 570.172.08

  • Correzioni di sicurezza

SageMaker HyperPod note di rilascio: 12 agosto 2025

L'AMI include quanto segue:

  • SupportatoServizio AWS: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Architettura di calcolo: ARM64

  • L'ultima versione disponibile è installata per i seguenti pacchetti:

    • Kernel Linux: 6.8

    • FSx Lustro

    • Docker

    • AWS CLIv2 in /usr/bin/aws

    • NVIDIA DCGM

    • Toolkit per container Nvidia:

      • Comando di versione: nvidia-container-cli -V

    • Nvidia-docker2:

      • Comando di versione: nvidia-docker version

    • Nvidia-IMEX: v570.172.08-1

  • Driver NVIDIA: 570.158.01

  • Pila NVIDIA CUDA 12.4, 12.5, 12.6, 12.8:

    • Directory di installazione CUDA, NCCL e cuDDN: /usr/local/cuda-xx.x/

      • Esempio: /usr/local/cuda-12.8/, /usr/local/cuda-12.8/

    • Versione NCCL compilata:

      • Per la directory CUDA 12.4, versione NCCL compilata 2.22.3+ .4 CUDA12

      • Per la directory CUDA 12.5, è stata compilata la versione NCCL 2.22.3+ .5 CUDA12

      • Per la directory CUDA 12.6, è stata compilata la versione NCCL 2.24.3+ .6 CUDA12

      • Per la directory CUDA 12.8, è stata compilata la versione NCCL 2.27.5+ .8 CUDA12

    • CUDA predefinito: 12.8

      • PATH /usr/local/cuda punta a CUDA 12.8

      • Aggiornato di seguito le variabili di ambiente:

        • LD_LIBRARY_PATHavere /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATHavere /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Per qualsiasi versione CUDA diversa, aggiorna di LD_LIBRARY_PATH conseguenza.

  • Programma di installazione EFA: 1.42.0

  • GDRCopyNvidia: 2.5.1

  • AWSIl plugin OFI NCCL viene fornito con il programma di installazione EFA

    • Percorsi /opt/amazon/ofi-nccl/lib/aarch64-linux-gnu e vengono aggiunti a. /opt/amazon/ofi-nccl/efa LD_LIBRARY_PATH

  • AWS CLIv2 at /usr/local/bin/aws2 e AWS CLI v1 a /usr/bin/aws

  • Tipo di volume EBS: gp3

  • Python: /usr/bin/python3.10

SageMaker HyperPod note di rilascio: 27 maggio 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità e miglioramenti

  • L’AMI di base aggiornata a Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523 con i componenti chiave seguenti:

    • Driver NVIDIA: 570.133.20

    • CUDA: 12.8 (impostazione predefinita), con supporto per CUDA 12.4-12.6

    • Versione NCCL: 2.26.5

    • Programma di installazione EFA: 1.40.0

    • AWSOFI NCCL: 1.14.2-aws

  • Pacchetti di SDK Neuron aggiornati:

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (dal 2.24.59.0-838c7fc8b)

    • aws-neuronx-dkms: 2.21.37.0 (dal 2.20.28.0)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (dal 2.24.53.0-f239092cc)

    • aws-neuronx-tools: 2.23.9.0 (dal 2.22.61.0)

Note importanti

  • Al momento, il Kit di strumenti per container NVIDIA 1.17.4 ha disabilitato il montaggio delle librerie compatibili CUDA.

  • Configurazione EFA aggiornata da 1.37 a 1.38. EFA ora include il plugin AWS OFI NCCL, che si trova nella directory /opt/amazon/ofi-nccl anziché nel percorso /opt/aws-ofi-nccl/ originale. (Data di rilascio: 18 febbraio 2025)

  • La versione del kernel è bloccata tramite pinning per garantire stabilità e compatibilità dei driver.

SageMaker HyperPod Versioni AMI per Slurm: 13 maggio 2025

Amazon SageMaker HyperPod ha rilasciato un'AMI aggiornata che supporta Ubuntu 22.04 LTS per cluster Slurm. AWSsi aggiorna regolarmente AMIs per garantire l'accesso allo stack software più recente. L’aggiornamento all’AMI più recente offre una maggiore sicurezza grazie ad aggiornamenti completi dei pacchetti, prestazioni e stabilità migliorate per i carichi di lavoro e compatibilità con i nuovi tipi di istanze e le funzionalità del kernel più recenti.

Importante

L’aggiornamento da Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce modifiche che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per Ubuntu 20.04.

Aggiornamenti chiave nell’AMI Ubuntu 22.04

La tabella seguente elenca le versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente.

Versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente
Componente Versione precedente Versione aggiornata

Sistema operativo Ubuntu

20.04 LTS

22.04 LTS

Slurm

24.11

24.11 (invariata)

Python

3.8 (predefinita)

3.10 (predefinita)

Elastic Fabric Adapter (EFA) su Amazon FSx

Non supportata

Supportata

Kernel Linux

5.15

6.8

Libreria GNU C (glibc)

2,31

2,35

GNU Compiler Collection (GCC)

9,40

11,4,0

libc6

≤ 2.31

Supportato ≥ 2.35

File system di rete (NFS)

1:1.3.4

1:2.6.1

Nota

Sebbene la versione Slurm (24.11) resti invariata, gli aggiornamenti sottostanti del sistema operativo e della libreria in questa AMI possono influire sul comportamento del sistema e sulla compatibilità del carico di lavoro. È necessario testare i carichi di lavoro prima di aggiornare i cluster di produzione.

Aggiornamento all’AMI Ubuntu 22.04

Prima di aggiornare il cluster all’AMI Ubuntu 22.04, completa queste fasi di preparazione e rivedi i requisiti di aggiornamento. Per risolvere gli errori di aggiornamento, consulta Risoluzione dei problemi di aggiornamento.

Analisi della compatibilità Python

L’AMI Ubuntu 22.04 utilizza Python 3.10 come versione predefinita, aggiornata da Python 3.8. Sebbene Python 3.10 mantenga la compatibilità con la maggior parte del codice Python 3.8, è necessario testare i carichi di lavoro esistenti prima dell’aggiornamento. Se i tuoi carichi di lavoro richiedono Python 3.8, puoi installarlo utilizzando il comando seguente nello script del ciclo di vita:

yum install python-3.8

Prima di aggiornare il cluster:

  1. Verifica la compatibilità del tuo codice con Python 3.10.

  2. Verifica che gli script del ciclo di vita funzionino nel nuovo ambiente.

  3. Verifica che tutte le dipendenze siano compatibili con la nuova versione di Python.

  4. Se hai creato il HyperPod cluster copiando lo script del ciclo di vita predefinito da GitHub, aggiungi il seguente comando al setup_mariadb_accounting.sh file prima di eseguire l'aggiornamento a Ubuntu 22. Per lo script completo, vedi setup_mariadb_accounting.sh su. GitHub

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Aggiornamento del cluster Slurm

Per utilizzare la nuova AMI, puoi aggiornare il cluster Slurm in due modi:

  1. Crea un nuovo cluster con l’API CreateCluster.

  2. Aggiorna il software di un cluster esistente con l’API UpdateClusterSoftware.

Configurazioni convalidate

AWSha testato un'ampia gamma di carichi di lavoro di formazione distribuiti e funzionalità di infrastruttura su istanze G5, G6, G6e, P4d, P5 e Trn1, tra cui:

Tempi di inattività e disponibilità dei cluster

Durante il processo di aggiornamento, il cluster non sarà disponibile. Per ridurre al minimo le interruzioni, procedi come descritto di seguito:

  • Testa il processo di aggiornamento su cluster più piccoli.

  • Crea checkpoint prima dell’aggiornamento, quindi riavvia i carichi di lavoro di addestramento dai checkpoint esistenti dopo l’aggiornamento.

Risoluzione dei problemi di aggiornamento

Quando un aggiornamento non riesce, stabilisci innanzitutto se l’errore è correlato agli script del ciclo di vita. Questi script generalmente non riescono a causa di errori di sintassi, dipendenze mancanti o configurazioni errate.

Per esaminare gli errori relativi agli script del ciclo di vita, controlla i log. CloudWatch Tutti gli SageMaker HyperPod eventi e i log vengono archiviati nel gruppo di log:. /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] Guarda in particolare il flusso di log LifecycleConfig/[instance-group-name]/[instance-id], che fornisce informazioni dettagliate su eventuali errori durante l’esecuzione dello script.

Se l’errore di aggiornamento non è correlato agli script del ciclo di vita, raccogli le informazioni pertinenti, tra cui l’ARN del cluster, i log degli errori e i timestamp, quindi contatta il supporto AWS per ulteriore assistenza.

SageMaker HyperPod Versioni AMI per Slurm: 07 maggio 2025

Amazon SageMaker HyperPod for Slurm ha rilasciato un importante aggiornamento della versione del sistema operativo a Ubuntu 22.04 (dal precedente Ubuntu 20.04). Consulta DLAMI Ubuntu 22.04 (note di rilascio) per ulteriori informazioni: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.

Aggiornamenti chiave dei pacchetti:

  • Ubuntu 22.04 LTS (da 20.04)

  • Versione di Python:

    • Python 3.10 è ora la versione Python predefinita nell’AMI Slurm di Ubuntu 22.04

    • Questo aggiornamento fornisce l’accesso alle funzionalità più recenti, miglioramenti delle prestazioni e correzioni di bug introdotte in Python 3.10

  • Support per EFA su FSx

  • Nuova versione del kernel Linux 6.8 (aggiornata dalla versione 5.15)

  • Versione Glibc: 2.35 (aggiornata dalla versione 2.31)

  • Versione GCC: 11.4.0 (aggiornata dalla versione 9.4.0)

  • Supporto per versioni libc6 più recenti (dalla versione libc6 <= 2.31)

  • Versione NFS: 1:2.6.1 (aggiornata dalla versione 1:1.3.4)

SageMaker HyperPod Versioni AMI per Slurm: 28 aprile 2025

Miglioramenti per Slurm

  • Driver NVIDIA aggiornato dalla versione 550.144.03 alla 550.163.01. Questo aggiornamento è destinato a risolvere le vulnerabilità e le esposizioni comuni (CVEs) presenti nel NVIDIA GPU Display Security Bulletin di aprile 2025.

Supporto Amazon SageMaker HyperPod DLAMI per Slurm

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2,20.28,0

  • aws-neuronx-runtime-lib: 2,24.53,0-f239092cc

  • aws-neuronx-tools/sconosciuto: 2.22.61.0

SageMaker HyperPod Versioni AMI per Slurm: 18 febbraio 2025

Miglioramenti per Slurm

  • Versione Slurm aggiornata alla 24.11.

  • Versione Elastic Fabric Adapter (EFA) aggiornata dalla 1.37.0 alla 1.38.0.

  • L'EFA ora include il plugin OFI AWS NCCL. Puoi trovare questo plugin nella directory /opt/amazon/ofi-nccl, anziché nella posizione /opt/aws-ofi-nccl/ originale. Se devi aggiornare la variabile di ambiente LD_LIBRARY_PATH, assicurati di modificare il percorso in modo che punti alla nuova posizione /opt/amazon/ofi-nccl del plugin OFI NCCL.

  • È stato rimosso il pacchetto emacs da questi. DLAMIs Puoi installare emacs da GNU emac.

Supporto Amazon SageMaker HyperPod DLAMI per Slurm

Installed the latest version ofAWSNeuron SDK 2.19
  • aws-neuronx-collectives/sconosciuto: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/sconosciuto: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/sconosciuto: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/sconosciuto: 2.20.204.0 amd64

SageMaker HyperPod Versioni AMI per Slurm: 21 dicembre 2024

SageMaker HyperPod Supporto DLAMI per Slurm

Deep Learning Slurm AMI
  • Driver NVIDIA: 550.127.05

  • Driver EFA: 2.13.0-1

  • Installata l'ultima versione di Neuron SDK AWS

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 218.20,0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19,0

    • aws-neuronx-tools: 2,19,0

SageMaker HyperPod Versioni AMI per Slurm: 24 novembre 2024

Aggiornamenti generali AMI

  • Rilasciata nella Regione MEL (Melbourne).

  • DLAMI di SageMaker HyperPod base aggiornato alle seguenti versioni:

    • Slurm: 22/11/2024.

SageMaker HyperPod Versioni AMI per Slurm: 15 novembre 2024

Aggiornamenti generali AMI

  • Ultimo pacchetto libnvidia-nscq-xxx installato.

SageMaker HyperPod Supporto DLAMI per Slurm

Deep Learning Slurm AMI
  • Driver NVIDIA: 550.127.05

  • Driver EFA: 2.13.0-1

  • Installata l'ultima versione di Neuron SDK AWS

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Versioni AMI per Slurm: 11 novembre 2024

Aggiornamenti generali AMI

  • DLAMI di SageMaker HyperPod base aggiornato alla seguente versione:

    • Slurm: 23/10/2024.

SageMaker HyperPod Versioni AMI per Slurm: 21 ottobre 2024

Aggiornamenti generali AMI

  • DLAMI di SageMaker HyperPod base aggiornato alle seguenti versioni:

    • Slurm: 27/09/2024.

SageMaker HyperPod Versioni AMI per Slurm: 10 settembre 2024

SageMaker HyperPod Supporto DLAMI per Slurm

Deep Learning Slurm AMI
  • Installato il driver NVIDIA v550.90.07

  • Installato il driver EFA v2.10

  • Installata l'ultima versione di Neuron SDK AWS

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Versioni AMI per Slurm: 14 marzo 2024

HyperPod Patch software DLAMI per Slurm

  • Slurm aggiornato alla versione 23.11.1

  • Aggiunto Open PMIx v4.2.6 per abilitare Slurm con. PMIx

  • Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04) rilasciata il 26/10/2023

  • Un elenco completo dei pacchetti preinstallati in questo HyperPod DLAMI oltre all'AMI di base

    • Slurm: v23.11.1

    • Apri PMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod pacchetti software per supportare funzionalità come il controllo dello stato del cluster e il ripristino automatico

Fasi dell’aggiornamento

  • Esegui il comando seguente per chiamare l'UpdateClusterSoftwareAPI per aggiornare i HyperPod cluster esistenti con il HyperPod DLAMI più recente. Per ulteriori istruzioni, consulta Aggiorna il software della SageMaker HyperPod piattaforma di un cluster.

    Importante

    Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di applicazione delle patch sostituisce il volume root con l’AMI aggiornata, il che significa che i dati precedenti archiviati nel volume root dell’istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell'istanza su Amazon S3 o Amazon FSx for Lustre. Per ulteriori informazioni, consulta Utilizza lo script di backup fornito da SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Nota

    Tieni presente che dovresti eseguire il AWS CLI comando per aggiornare il HyperPod cluster. L'aggiornamento del HyperPod software tramite l'interfaccia utente SageMaker HyperPod della console non è attualmente disponibile.

SageMaker HyperPod Rilascio AMI per Slurm: 29 novembre 2023

HyperPod Patch software DLAMI per Slurm

Il team HyperPod di assistenza distribuisce le patch software tramite. SageMaker HyperPod DLAMI Consulta i seguenti dettagli sull'ultima versione di HyperPod DLAMI.

  • Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04) rilasciata il 18/10/2023

  • Un elenco completo dei pacchetti preinstallati in questo HyperPod DLAMI oltre all'AMI di base

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod pacchetti software per supportare funzionalità come il controllo dello stato del cluster e il ripristino automatico