Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPod Rilasci AMI per Slurm
Le seguenti note di rilascio tengono traccia degli ultimi aggiornamenti per le versioni di Amazon SageMaker HyperPod AMI per l'orchestrazione di Slurm. Questi HyperPod AMIs sono basati sull'AMI GPU AWS Deep Learning Base (Ubuntu 22.04
Nota
Per aggiornare HyperPod i cluster esistenti con il DLAMI più recente, vedere. Aggiorna il software della SageMaker HyperPod piattaforma di un cluster
SageMaker HyperPod Versioni AMI per Slurm: 22 novembre 2025
Aggiornamenti generali AMI
-
Aggiornamenti rilasciati per SageMaker HyperPod AMI for Slurm versioni 24.11.
SageMaker HyperPod Supporto DLAMI per Slurm
Questo rilascio include gli aggiornamenti seguenti:
SageMaker HyperPod note di rilascio: 07 novembre 2025
L'AMI include quanto segue:
-
SupportatoServizio AWS: Amazon EC2
-
Sistema operativo: Ubuntu 22.04
-
Architettura di calcolo: ARM64
-
Pacchetti aggiornati: NVIDIA Driver: 580.95.05
-
Versioni CUDA: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0
-
Correzioni di sicurezza: patch Runc
Security
SageMaker HyperPod note di rilascio: 29 settembre 2025
L'AMI include quanto segue:
-
SupportatoServizio AWS: Amazon EC2
-
Sistema operativo: Ubuntu 22.04
-
Architettura di calcolo: ARM64
-
Pacchetti aggiornati: NVIDIA Driver: 570.172.08
-
Correzioni di sicurezza
SageMaker HyperPod note di rilascio: 12 agosto 2025
L'AMI include quanto segue:
-
SupportatoServizio AWS: Amazon EC2
-
Sistema operativo: Ubuntu 22.04
-
Architettura di calcolo: ARM64
-
L'ultima versione disponibile è installata per i seguenti pacchetti:
-
Kernel Linux: 6.8
-
FSx Lustro
-
Docker
-
AWS CLIv2 in
/usr/bin/aws -
NVIDIA DCGM
-
Toolkit per container Nvidia:
-
Comando di versione:
nvidia-container-cli -V
-
-
Nvidia-docker2:
-
Comando di versione:
nvidia-docker version
-
-
Nvidia-IMEX: v570.172.08-1
-
-
Driver NVIDIA: 570.158.01
-
Pila NVIDIA CUDA 12.4, 12.5, 12.6, 12.8:
-
Directory di installazione CUDA, NCCL e cuDDN:
/usr/local/cuda-xx.x/-
Esempio:
/usr/local/cuda-12.8/,/usr/local/cuda-12.8/
-
-
Versione NCCL compilata:
-
Per la directory CUDA 12.4, versione NCCL compilata 2.22.3+ .4 CUDA12
-
Per la directory CUDA 12.5, è stata compilata la versione NCCL 2.22.3+ .5 CUDA12
-
Per la directory CUDA 12.6, è stata compilata la versione NCCL 2.24.3+ .6 CUDA12
-
Per la directory CUDA 12.8, è stata compilata la versione NCCL 2.27.5+ .8 CUDA12
-
-
CUDA predefinito: 12.8
-
PATH
/usr/local/cudapunta a CUDA 12.8 -
Aggiornato di seguito le variabili di ambiente:
-
LD_LIBRARY_PATHavere/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATHavere/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
Per qualsiasi versione CUDA diversa, aggiorna di
LD_LIBRARY_PATHconseguenza.
-
-
-
-
Programma di installazione EFA: 1.42.0
-
GDRCopyNvidia: 2.5.1
-
AWSIl plugin OFI NCCL viene fornito con il programma di installazione EFA
-
Percorsi
/opt/amazon/ofi-nccl/lib/aarch64-linux-gnue vengono aggiunti a./opt/amazon/ofi-nccl/efaLD_LIBRARY_PATH
-
-
AWS CLIv2 at
/usr/local/bin/aws2e AWS CLI v1 a/usr/bin/aws -
Tipo di volume EBS: gp3
-
Python:
/usr/bin/python3.10
SageMaker HyperPod note di rilascio: 27 maggio 2025
SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.
Nuove funzionalità e miglioramenti
-
L’AMI di base aggiornata a
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523con i componenti chiave seguenti:-
Driver NVIDIA: 570.133.20
-
CUDA: 12.8 (impostazione predefinita), con supporto per CUDA 12.4-12.6
-
Versione NCCL: 2.26.5
-
Programma di installazione EFA: 1.40.0
-
AWSOFI NCCL: 1.14.2-aws
-
-
Pacchetti di SDK Neuron aggiornati:
-
aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (dal 2.24.59.0-838c7fc8b)
-
aws-neuronx-dkms: 2.21.37.0 (dal 2.20.28.0)
-
aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (dal 2.24.53.0-f239092cc)
-
aws-neuronx-tools: 2.23.9.0 (dal 2.22.61.0)
-
Note importanti
-
Al momento, il Kit di strumenti per container NVIDIA 1.17.4 ha disabilitato il montaggio delle librerie compatibili CUDA.
-
Configurazione EFA aggiornata da 1.37 a 1.38. EFA ora include il plugin AWS OFI NCCL, che si trova nella directory
/opt/amazon/ofi-ncclanziché nel percorso/opt/aws-ofi-nccl/originale. (Data di rilascio: 18 febbraio 2025) -
La versione del kernel è bloccata tramite pinning per garantire stabilità e compatibilità dei driver.
SageMaker HyperPod Versioni AMI per Slurm: 13 maggio 2025
Amazon SageMaker HyperPod ha rilasciato un'AMI aggiornata che supporta Ubuntu 22.04 LTS per cluster Slurm. AWSsi aggiorna regolarmente AMIs per garantire l'accesso allo stack software più recente. L’aggiornamento all’AMI più recente offre una maggiore sicurezza grazie ad aggiornamenti completi dei pacchetti, prestazioni e stabilità migliorate per i carichi di lavoro e compatibilità con i nuovi tipi di istanze e le funzionalità del kernel più recenti.
Importante
L’aggiornamento da Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce modifiche che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per Ubuntu 20.04.
In questa nota di rilascio, vedrai:
Aggiornamenti chiave nell’AMI Ubuntu 22.04
La tabella seguente elenca le versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente.
| Componente | Versione precedente | Versione aggiornata |
|---|---|---|
|
Sistema operativo Ubuntu |
20.04 LTS |
22.04 LTS |
|
Slurm |
24.11 |
24.11 (invariata) |
|
Python |
3.8 (predefinita) |
3.10 (predefinita) |
|
Elastic Fabric Adapter (EFA) su Amazon FSx |
Non supportata |
Supportata |
|
Kernel Linux |
5.15 |
6.8 |
|
Libreria GNU C (glibc) |
2,31 |
2,35 |
|
GNU Compiler Collection (GCC) |
9,40 |
11,4,0 |
|
libc6 |
≤ 2.31 |
Supportato ≥ 2.35 |
|
File system di rete (NFS) |
1:1.3.4 |
1:2.6.1 |
Nota
Sebbene la versione Slurm (24.11) resti invariata, gli aggiornamenti sottostanti del sistema operativo e della libreria in questa AMI possono influire sul comportamento del sistema e sulla compatibilità del carico di lavoro. È necessario testare i carichi di lavoro prima di aggiornare i cluster di produzione.
Aggiornamento all’AMI Ubuntu 22.04
Prima di aggiornare il cluster all’AMI Ubuntu 22.04, completa queste fasi di preparazione e rivedi i requisiti di aggiornamento. Per risolvere gli errori di aggiornamento, consulta Risoluzione dei problemi di aggiornamento.
Analisi della compatibilità Python
L’AMI Ubuntu 22.04 utilizza Python 3.10 come versione predefinita, aggiornata da Python 3.8. Sebbene Python 3.10 mantenga la compatibilità con la maggior parte del codice Python 3.8, è necessario testare i carichi di lavoro esistenti prima dell’aggiornamento. Se i tuoi carichi di lavoro richiedono Python 3.8, puoi installarlo utilizzando il comando seguente nello script del ciclo di vita:
yum install python-3.8
Prima di aggiornare il cluster:
-
Verifica la compatibilità del tuo codice con Python 3.10.
-
Verifica che gli script del ciclo di vita funzionino nel nuovo ambiente.
-
Verifica che tutte le dipendenze siano compatibili con la nuova versione di Python.
-
Se hai creato il HyperPod cluster copiando lo script del ciclo di vita predefinito da GitHub, aggiungi il seguente comando al
setup_mariadb_accounting.shfile prima di eseguire l'aggiornamento a Ubuntu 22. Per lo script completo, vedi setup_mariadb_accounting.sh su. GitHubapt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Aggiornamento del cluster Slurm
Per utilizzare la nuova AMI, puoi aggiornare il cluster Slurm in due modi:
-
Crea un nuovo cluster con l’API
CreateCluster. -
Aggiorna il software di un cluster esistente con l’API
UpdateClusterSoftware.
Configurazioni convalidate
AWSha testato un'ampia gamma di carichi di lavoro di formazione distribuiti e funzionalità di infrastruttura su istanze G5, G6, G6e, P4d, P5 e Trn1, tra cui:
-
Formazione distribuita con PyTorch (ad esempio, FSDP, MA, MNIST). NeMo LLa
-
Test con acceleratore su diversi tipi di istanze con Nvidia (serie P/G) e Neuron (Trn1). AWS
-
Funzionalità di resilienza che includono la ripresa automatica e i controlli dell’integrità approfonditi.
Tempi di inattività e disponibilità dei cluster
Durante il processo di aggiornamento, il cluster non sarà disponibile. Per ridurre al minimo le interruzioni, procedi come descritto di seguito:
-
Testa il processo di aggiornamento su cluster più piccoli.
-
Crea checkpoint prima dell’aggiornamento, quindi riavvia i carichi di lavoro di addestramento dai checkpoint esistenti dopo l’aggiornamento.
Risoluzione dei problemi di aggiornamento
Quando un aggiornamento non riesce, stabilisci innanzitutto se l’errore è correlato agli script del ciclo di vita. Questi script generalmente non riescono a causa di errori di sintassi, dipendenze mancanti o configurazioni errate.
Per esaminare gli errori relativi agli script del ciclo di vita, controlla i log. CloudWatch Tutti gli SageMaker HyperPod eventi e i log vengono archiviati nel gruppo di log:. /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] Guarda in particolare il flusso di log LifecycleConfig/[instance-group-name]/[instance-id], che fornisce informazioni dettagliate su eventuali errori durante l’esecuzione dello script.
Se l’errore di aggiornamento non è correlato agli script del ciclo di vita, raccogli le informazioni pertinenti, tra cui l’ARN del cluster, i log degli errori e i timestamp, quindi contatta il supporto AWS
SageMaker HyperPod Versioni AMI per Slurm: 07 maggio 2025
Amazon SageMaker HyperPod for Slurm ha rilasciato un importante aggiornamento della versione del sistema operativo a Ubuntu 22.04 (dal precedente Ubuntu 20.04). Consulta DLAMI Ubuntu 22.04 (note di rilascioDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.
Aggiornamenti chiave dei pacchetti:
-
Ubuntu 22.04 LTS (da 20.04)
-
Versione di Python:
-
Python 3.10 è ora la versione Python predefinita nell’AMI Slurm di Ubuntu 22.04
-
Questo aggiornamento fornisce l’accesso alle funzionalità più recenti, miglioramenti delle prestazioni e correzioni di bug introdotte in Python 3.10
-
-
Support per EFA su FSx
-
Nuova versione del kernel Linux 6.8 (aggiornata dalla versione 5.15)
-
Versione Glibc: 2.35 (aggiornata dalla versione 2.31)
-
Versione GCC: 11.4.0 (aggiornata dalla versione 9.4.0)
-
Supporto per versioni libc6 più recenti (dalla versione libc6 <= 2.31)
-
Versione NFS: 1:2.6.1 (aggiornata dalla versione 1:1.3.4)
SageMaker HyperPod Versioni AMI per Slurm: 28 aprile 2025
Miglioramenti per Slurm
-
Driver NVIDIA aggiornato dalla versione 550.144.03 alla 550.163.01. Questo aggiornamento è destinato a risolvere le vulnerabilità e le esposizioni comuni (CVEs) presenti nel NVIDIA GPU
Display Security Bulletin di aprile 2025.
Supporto Amazon SageMaker HyperPod DLAMI per Slurm
SageMaker HyperPod Versioni AMI per Slurm: 18 febbraio 2025
Miglioramenti per Slurm
-
Versione Slurm aggiornata alla 24.11.
-
Versione Elastic Fabric Adapter (EFA) aggiornata dalla 1.37.0 alla 1.38.0.
-
L'EFA ora include il plugin OFI AWS NCCL. Puoi trovare questo plugin nella directory
/opt/amazon/ofi-nccl, anziché nella posizione/opt/aws-ofi-nccl/originale. Se devi aggiornare la variabile di ambienteLD_LIBRARY_PATH, assicurati di modificare il percorso in modo che punti alla nuova posizione/opt/amazon/ofi-nccldel plugin OFI NCCL. -
È stato rimosso il pacchetto emacs da questi. DLAMIs Puoi installare emacs da GNU emac.
Supporto Amazon SageMaker HyperPod DLAMI per Slurm
SageMaker HyperPod Versioni AMI per Slurm: 21 dicembre 2024
SageMaker HyperPod Supporto DLAMI per Slurm
SageMaker HyperPod Versioni AMI per Slurm: 24 novembre 2024
Aggiornamenti generali AMI
-
Rilasciata nella Regione
MEL(Melbourne). -
DLAMI di SageMaker HyperPod base aggiornato alle seguenti versioni:
-
Slurm: 22/11/2024.
-
SageMaker HyperPod Versioni AMI per Slurm: 15 novembre 2024
Aggiornamenti generali AMI
-
Ultimo pacchetto
libnvidia-nscq-xxxinstallato.
SageMaker HyperPod Supporto DLAMI per Slurm
SageMaker HyperPod Versioni AMI per Slurm: 11 novembre 2024
Aggiornamenti generali AMI
-
DLAMI di SageMaker HyperPod base aggiornato alla seguente versione:
-
Slurm: 23/10/2024.
-
SageMaker HyperPod Versioni AMI per Slurm: 21 ottobre 2024
Aggiornamenti generali AMI
-
DLAMI di SageMaker HyperPod base aggiornato alle seguenti versioni:
-
Slurm: 27/09/2024.
-
SageMaker HyperPod Versioni AMI per Slurm: 10 settembre 2024
SageMaker HyperPod Supporto DLAMI per Slurm
SageMaker HyperPod Versioni AMI per Slurm: 14 marzo 2024
HyperPod Patch software DLAMI per Slurm
-
Slurm
aggiornato alla versione 23.11.1 -
Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04)
rilasciata il 26/10/2023 -
Un elenco completo dei pacchetti preinstallati in questo HyperPod DLAMI oltre all'AMI di base
Fasi dell’aggiornamento
-
Esegui il comando seguente per chiamare l'UpdateClusterSoftwareAPI per aggiornare i HyperPod cluster esistenti con il HyperPod DLAMI più recente. Per ulteriori istruzioni, consulta Aggiorna il software della SageMaker HyperPod piattaforma di un cluster.
Importante
Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di applicazione delle patch sostituisce il volume root con l’AMI aggiornata, il che significa che i dati precedenti archiviati nel volume root dell’istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell'istanza su Amazon S3 o Amazon FSx for Lustre. Per ulteriori informazioni, consulta Utilizza lo script di backup fornito da SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-nameyour-cluster-nameNota
Tieni presente che dovresti eseguire il AWS CLI comando per aggiornare il HyperPod cluster. L'aggiornamento del HyperPod software tramite l'interfaccia utente SageMaker HyperPod della console non è attualmente disponibile.
SageMaker HyperPod Rilascio AMI per Slurm: 29 novembre 2023
HyperPod Patch software DLAMI per Slurm
Il team HyperPod di assistenza distribuisce le patch software tramite. SageMaker HyperPod DLAMI Consulta i seguenti dettagli sull'ultima versione di HyperPod DLAMI.
-
Basato sull’AWS AMI di Deep Learning GPU di base (Ubuntu 20.04)
rilasciata il 18/10/2023 -
Un elenco completo dei pacchetti preinstallati in questo HyperPod DLAMI oltre all'AMI di base
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
SageMaker HyperPod pacchetti software per supportare funzionalità come il controllo dello stato del cluster e il ripristino automatico
-