Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod Publications d'AMI pour Slurm
Les notes de mise à jour suivantes présentent les dernières mises à jour des versions Amazon SageMaker HyperPod AMI pour l'orchestration de Slurm. Ils HyperPod AMIs sont basés sur l'AMI GPU AWS Deep Learning Base (Ubuntu 22.04).
Note
Pour mettre à jour les HyperPod clusters existants avec le DLAMI le plus récent, consultez. Mettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster
SageMaker HyperPod Sortie d'AMI pour Slurm : 22 novembre 2025
Mises à jour générales de l’AMI
-
Publication de mises à jour pour les versions 24.11 de l' SageMaker HyperPod AMI pour Slurm.
SageMaker HyperPod Assistance DLAMI pour Slurm
Cette version inclut les mises à jour suivantes :
SageMaker HyperPod notes de publication : 07 novembre 2025
L'AMI inclut les éléments suivants :
-
Soutenu Service AWS : Amazon EC2
-
Système d'exploitation : Ubuntu 22.04
-
Architecture informatique : ARM64
-
Packages mis à jour : pilote NVIDIA : 580.95.05
-
Versions de CUDA : cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0
-
Correctifs de sécurité : correctif de sécurité Runc
SageMaker HyperPod notes de publication : 29 septembre 2025
L'AMI inclut les éléments suivants :
-
Soutenu Service AWS : Amazon EC2
-
Système d'exploitation : Ubuntu 22.04
-
Architecture informatique : ARM64
-
Packages mis à jour : pilote NVIDIA : 570.172.08
-
Correctifs de sécurité
SageMaker HyperPod notes de publication : 12 août 2025
L'AMI inclut les éléments suivants :
-
Soutenu Service AWS : Amazon EC2
-
Système d'exploitation : Ubuntu 22.04
-
Architecture informatique : ARM64
-
La dernière version disponible est installée pour les packages suivants :
-
Noyau Linux : 6.8
-
FSx Lustre
-
Docker
-
AWS CLIv2 à
/usr/bin/aws -
NVIDIA DCGM
-
Boîte à outils pour conteneurs Nvidia :
-
Commande de version :
nvidia-container-cli -V
-
-
NVidia-Docker 2 :
-
Commande de version :
nvidia-docker version
-
-
NVidia-IMEX : v570.172.08-1
-
-
Pilote NVIDIA : 570.158.01
-
Pile NVIDIA CUDA 12,4, 12,5, 12,6, 12,8 :
-
Répertoires d'installation CUDA, NCCL et CudDN :
/usr/local/cuda-xx.x/-
Exemple :
/usr/local/cuda-12.8/,/usr/local/cuda-12.8/
-
-
Version NCCL compilée :
-
Pour le répertoire CUDA de 12.4, compilé la version 2.22.3+ 4 de NCCL CUDA12
-
Pour le répertoire CUDA de 12.5, compilé la version 2.22.3+ .5 de NCCL CUDA12
-
Pour le répertoire CUDA de 12.6, compilé la version NCCL 2.24.3+ .6 CUDA12
-
Pour le répertoire CUDA de 12.8, compilé la version 2.27.5+ de NCCL. CUDA12
-
-
CUDA par défaut : 12,8
-
PATH
/usr/local/cudapointe vers CUDA 12.8 -
Mise à jour des variables d'environnement ci-dessous :
-
LD_LIBRARY_PATHavoir/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATHavoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
Pour toute version différente de CUDA, veuillez la mettre à jour
LD_LIBRARY_PATHen conséquence.
-
-
-
-
Installateur EFA : 1.42.0
-
Nvidia GDRCopy : 2,5.1
-
AWSLe plugin OFI NCCL est fourni avec le programme d'installation EFA
-
Les chemins
/opt/amazon/ofi-nccl/lib/aarch64-linux-gnuet/opt/amazon/ofi-nccl/efasont ajoutés àLD_LIBRARY_PATH.
-
-
AWS CLIv2 at
/usr/local/bin/aws2et AWS CLI v1 at/usr/bin/aws -
Type de volume EBS : GP3
-
Python:
/usr/bin/python3.10
SageMaker HyperPod notes de publication : 27 mai 2025
SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.
Nouvelles fonctionnalités et améliorations
-
Mise à jour de l’AMI de base vers
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523avec les composants clés suivants :-
Pilote NVIDIA : 570.133.20
-
CUDA : 12.8 (par défaut), avec prise en charge pour CUDA 12.4-12.6
-
Version NCCL : 2.26.5
-
Programme d’installation d’EFA : 1.40.0
-
AWSNCCL OFI : 1.14.2-aws
-
-
Packages du kit SDK Neuron mis à jour :
-
aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (à partir de 2.24.59.0-838c7fc8b)
-
aws-neuronx-dkms: 2.21.37.0 (à partir de 2.20.28.0)
-
aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (à partir de 2.24.53.0-f239092cc)
-
aws-neuronx-tools: 2.23.9.0 (à partir de 2.22.61.0)
-
Remarques importantes
-
NVIDIA Container Toolkit 1.17.4 a désormais désactivé le montage des bibliothèques compatibles CUDA.
-
Mise à jour de la configuration EFA de la version 1.37 à 1.38, et EFA inclut désormais le plug-in AWS OFI NCCL, qui se trouve dans le répertoire
/opt/amazon/ofi-ncclet non plus dans le chemin d’origine/opt/aws-ofi-nccl/. (Publié le 18 février 2025) -
La version du noyau est épinglée pour des raisons de stabilité et de compatibilité des pilotes.
SageMaker HyperPod Sortie d'AMI pour Slurm : 13 mai 2025
Amazon SageMaker HyperPod a publié une AMI mise à jour qui prend en charge Ubuntu 22.04 LTS pour les clusters Slurm. AWSdes mises AMIs à jour régulières pour garantir que vous avez accès à la pile logicielle la plus récente. La mise à niveau vers la dernière AMI améliore la sécurité grâce à des mises à jour complètes des packages, fournit des performances et une stabilité améliorées pour vos charges de travail, et assure la compatibilité avec les nouveaux types d’instances et les dernières fonctionnalités du noyau.
Important
La mise à jour d’Ubuntu 20.04 LTS vers Ubuntu 22.04 LTS introduit des modifications susceptibles d’affecter la compatibilité avec les logiciels et les configurations conçus pour Ubuntu 20.04.
Dans cette note de mise à jour, vous verrez :
Principales mises à jour de l’AMI Ubuntu 22.04
Le tableau suivant répertorie les versions des composants de l’AMI Ubuntu 22.04 par rapport à l’AMI précédente.
| Composant | Version précédente | Version mise à jour |
|---|---|---|
|
Système d’exploitation Ubuntu |
20.04 LTS |
22.04 LTS |
|
Bidouste |
24,11 |
24.11 (inchangée) |
|
Python |
3.8 (par défaut) |
3.10 (par défaut) |
|
Elastic Fabric Adapter (EFA) sur Amazon FSx |
Non pris en charge |
Pris en charge |
|
Noyau Linux |
5,15 |
6.8 |
|
Bibliothèque GNU C (glibc) |
2,31 |
2,35 |
|
Collection de compilateurs GNU (GCC) |
9.4.0 |
11.4.0 |
|
libc6 |
≤ 2.31 |
≥ 2.35 prise en charge |
|
Network File System (NFS) |
1:1.3.4 |
1:2.6.1 |
Note
Bien que la version de Slurm (24.11) reste inchangée, les mises à jour du système d’exploitation et de la bibliothèque sous-jacents dans cette AMI peuvent affecter le comportement de votre système et la compatibilité des charges de travail. Vous devez tester vos charges de travail avant de mettre à niveau les clusters de production.
Mise à niveau vers l’AMI Ubuntu 22.04
Avant de mettre à niveau votre cluster vers l’AMI Ubuntu 22.04, effectuez ces étapes de préparation et passez en revue les exigences de mise à niveau. Pour dépanner les échecs de mise à niveau, consultez Dépannage des échecs de mise à niveau.
Vérification de la compatibilité Python
L’AMI Ubuntu 22.04 utilise Python 3.10 comme version par défaut, mise à niveau depuis Python 3.8. Bien que Python 3.10 reste compatible avec la plupart du code Python 3.8, vous devez tester vos charges de travail existantes avant de procéder à la mise à niveau. Si vos charges de travail nécessitent Python 3.8, vous pouvez l’installer à l’aide de la commande suivante dans votre script de cycle de vie :
yum install python-3.8
Avant de mettre à niveau votre cluster, assurez-vous de procéder comme suit :
-
Testez la compatibilité de votre code avec Python 3.10.
-
Vérifiez que vos scripts de cycle de vie fonctionnent dans le nouvel environnement.
-
Vérifiez que toutes les dépendances sont compatibles avec la nouvelle version de Python.
-
Si vous avez créé votre HyperPod cluster en copiant le script de cycle de vie par défaut à partir de GitHub, ajoutez la commande suivante à votre
setup_mariadb_accounting.shfichier avant de passer à Ubuntu 22. Pour le script complet, consultez le fichier setup_mariadb_accounting.sh sur GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Mise à niveau de votre cluster Slurm
Vous pouvez mettre à niveau votre cluster Slurm pour utiliser la nouvelle AMI de deux manières :
-
Créez un nouveau cluster à l’aide de l’API
CreateCluster. -
Mettez à jour le logiciel d’un cluster existant à l’aide de l’API
UpdateClusterSoftware.
Configurations validées
AWSa testé un large éventail de charges de travail de formation distribuées et de fonctionnalités d'infrastructure sur des instances G5, G6, G6e, P4d, P5 et Trn1, notamment :
-
Formation distribuée avec PyTorch (par exemple, FSDP, LLa MA NeMo, MNIST).
-
Tests d'accélérateurs sur différents types d'instances avec Nvidia (série P/G) et AWS Neuron (Trn1).
-
Fonctionnalités de résilience incluant la reprise automatique et les surveillances de l’état approfondies.
Durée d’indisponibilité et disponibilité du cluster
Au cours du processus de mise à niveau, le cluster sera indisponible. Pour minimiser les interruptions, procédez comme suit :
-
Testez le processus de mise à niveau sur des clusters plus petits.
-
Créez des points de contrôle avant la mise à niveau, puis redémarrez les charges de travail d’entraînement à partir des points de contrôle existants une fois la mise à niveau terminée.
Dépannage des échecs de mise à niveau
Lorsqu’une mise à niveau échoue, commencez par déterminer si l’échec est lié aux scripts de cycle de vie. Ces scripts échouent généralement en raison d’erreurs de syntaxe, de dépendances manquantes ou de configurations incorrectes.
Pour étudier les défaillances liées aux scripts de cycle de vie, consultez CloudWatch les journaux. Tous les SageMaker HyperPod événements et journaux sont stockés dans le groupe de journaux :/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Examinez en particulier le flux de journaux LifecycleConfig/[instance-group-name]/[instance-id], qui fournit des informations détaillées sur les erreurs éventuelles survenant lors de l’exécution du script.
Si l’échec de la mise à niveau n’est pas lié aux scripts de cycle de vie, collectez les informations pertinentes, notamment l’ARN du cluster, les journaux d’erreurs et les horodatages, puis contactez le AWS Support
SageMaker HyperPod Sortie de l'AMI pour Slurm : 07 mai 2025
Amazon SageMaker HyperPod pour Slurm a publié une mise à niveau majeure du système d'exploitation vers Ubuntu 22.04 (par rapport à la version précédente d'Ubuntu 20.04). Consultez la DLAMI Ubuntu 22.04 (notes de mise à jourDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.
Principales mises à niveau des packages :
-
Ubuntu 22.04 LTS (à partir de 20.04)
-
Version de Python :
-
Python 3.10 est désormais la version de Python par défaut dans l’AMI Ubuntu 22.04 de Slurm.
-
Cette mise à niveau donne accès aux dernières fonctionnalités, améliorations de performances et corrections de bogues introduites dans Python 3.10.
-
-
Support pour EFA sur FSx
-
Nouvelle version 6.8 du noyau Linux (mise à jour à partir de 5.15)
-
Version Glibc : 2.35 (mise à jour à partir de 2.31)
-
Version GCC : 11.4.0 (mise à jour à partir de 9.4.0)
-
Prise en charge de la nouvelle version libc6 (à partir de la version libc6 <= 2.31)
-
Version NFS : 1:2.6.1 (mise à jour à partir de 1:1.3.4)
SageMaker HyperPod Sortie de l'AMI pour Slurm : 28 avril 2025
Améliorations pour Slurm
-
Mise à niveau du pilote NVIDIA de la version 550.144.03 à la version 550.163.01. Cette mise à niveau vise à remédier aux vulnérabilités et expositions courantes (CVEs) présentes dans le bulletin de sécurité de l'affichage des GPU NVIDIA d'avril 2025
.
Support Amazon SageMaker HyperPod DLAMI pour Slurm
SageMaker HyperPod Sortie de l'AMI pour Slurm : 18 février 2025
Améliorations pour Slurm
-
Mise à niveau de la version de Slurm vers 24.11.
-
Mise à niveau de la version Elastic Fabric Adapter (EFA) de 1.37.0 à 1.38.0.
-
L'EFA inclut désormais le plugin AWS OFI NCCL. Vous pouvez trouver ce plug-in dans le répertoire
/opt/amazon/ofi-nccl, plutôt que dans son emplacement/opt/aws-ofi-nccl/d’origine. Si vous devez mettre à jour votre variable d’environnementLD_LIBRARY_PATH, assurez-vous de modifier le chemin pour qu’il pointe vers le nouvel emplacement/opt/amazon/ofi-nccldu plug-in OFI NCCL. -
J'ai supprimé le package Emacs de ceux-ci DLAMIs. Vous pouvez installer emacs depuis GNU emac.
Support Amazon SageMaker HyperPod DLAMI pour Slurm
SageMaker HyperPod Sortie d'AMI pour Slurm : 21 décembre 2024
SageMaker HyperPod Assistance DLAMI pour Slurm
SageMaker HyperPod Sortie d'AMI pour Slurm : 24 novembre 2024
Mises à jour générales de l’AMI
-
Publication dans la région
MEL(Melbourne). -
DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :
-
Slurm : 2024-11-22.
-
SageMaker HyperPod Sortie d'AMI pour Slurm : 15 novembre 2024
Mises à jour générales de l’AMI
-
Dernier package
libnvidia-nscq-xxxinstallé.
SageMaker HyperPod Assistance DLAMI pour Slurm
SageMaker HyperPod Sortie d'AMI pour Slurm : 11 novembre 2024
Mises à jour générales de l’AMI
-
DLAMI SageMaker HyperPod de base mis à jour vers la version suivante :
-
Slurm : 2024-10-23.
-
SageMaker HyperPod Sortie d'AMI pour Slurm : 21 octobre 2024
Mises à jour générales de l’AMI
-
DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :
-
Slurm : 2024-09-27.
-
SageMaker HyperPod Sortie de l'AMI pour Slurm : 10 septembre 2024
SageMaker HyperPod Assistance DLAMI pour Slurm
SageMaker HyperPod Sortie d'AMI pour Slurm : 14 mars 2024
HyperPod Correctif logiciel DLAMI pour Slurm
-
Mise à niveau de Slurm
vers la version 23.11.1 -
Construit sur l’AMI GPU AWS Deep Learning Base (Ubuntu 20.04)
publiée le 26/10/2023 -
Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base
-
Slurm
: v23.11.1 -
Ouvert PMIx
: v4.2.6 -
Munge : v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique
-
Étapes de mise à niveau
-
Exécutez la commande suivante pour appeler l'UpdateClusterSoftwareAPI afin de mettre à jour vos HyperPod clusters existants avec le DLAMI le plus récent HyperPod . Pour obtenir des instructions supplémentaires, consultez Mettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.
Important
Sauvegardez votre travail avant d’exécuter cette API. Le processus d’application de correctifs remplace le volume racine par l’AMI mise à jour, ce qui signifie que les données précédemment stockées dans le volume racine de l’instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-nameyour-cluster-nameNote
Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.
SageMaker HyperPod Sortie de l'AMI pour Slurm : 29 novembre 2023
HyperPod Correctif logiciel DLAMI pour Slurm
L'équipe HyperPod de service distribue des correctifs logiciels par le biais deSageMaker HyperPod DLAMI. Consultez les informations suivantes sur le dernier HyperPod DLAMI.
-
Construit sur l’AMI GPU AWS Deep Learning Base (Ubuntu 20.04)
publiée le 18/10/2023 -
Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base
-
Slurm
: v23.02.3 -
Munge : v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique
-