SageMaker HyperPod Publications d'AMI pour Slurm - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod Publications d'AMI pour Slurm

Les notes de mise à jour suivantes présentent les dernières mises à jour des versions Amazon SageMaker HyperPod AMI pour l'orchestration de Slurm. Ils HyperPod AMIs sont basés sur l'AMI GPU AWS Deep Learning Base (Ubuntu 22.04). L'équipe HyperPod de service distribue des correctifs logiciels par le biais deSageMaker HyperPod DLAMI. Pour les versions d' HyperPod AMI pour l'orchestration d'Amazon EKS, consultezSageMaker HyperPod Publications d'AMI pour Amazon EKS. Pour plus d'informations sur les versions des SageMaker HyperPod fonctionnalités d'Amazon, consultezNotes de SageMaker HyperPod publication d'Amazon.

Note

Pour mettre à jour les HyperPod clusters existants avec le DLAMI le plus récent, consultez. Mettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster

SageMaker HyperPod Sortie d'AMI pour Slurm : 22 novembre 2025

Mises à jour générales de l’AMI

SageMaker HyperPod Assistance DLAMI pour Slurm

Cette version inclut les mises à jour suivantes :

Slurm (arm64)
  • Version du noyau Linux : 6.8

  • Version de Glibc : 2.35

  • Version d'OpenSSL : 3.0.2

  • FSx Version du client Lustre : 2.15.6-1fsx21

  • Version d'exécution : 1.3.3

  • Version contenue : containerd containerd.io v2.1.5

  • Version du pilote NVIDIA : 580.95.05

  • Version CUDA : 12,6, 12,8, 12,9, 13,0

  • Version du programme d'installation EFA : 2.1.0amzn5.0

  • Version de Python : 3.10.12

  • Version Slurm : 24.11.0

  • Version de nvme-cli : 1.16

  • Version collectée : 5.12.0.

  • Version du client lustre : 2.15.6-1fsx21

  • Version Nvidia-IMEX : 580.95.05-1

  • version du système : 249

  • version d'openssh : 8.9

  • version sudo : 1.9.9

  • Version UFW : 0.36.1

  • Version gcc : 11.4.0

  • Version de cmake : 3.22.1

  • Version git : 2.34.1

  • Version de marque : 4.3

  • Version de l'agent CloudWatch : 1.300062.0b1304-1

  • Version de nfs-utils : 1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils version : 2.1.5-1 ubuntu1.1

  • Version LVM2 : 2.03,11

  • Version ec2-instance-connect : 1.1.14-0ubuntu1.1

  • Version RDMA-Core : 58.amzn0-1

Slurm (x86_64)
  • Version du noyau Linux : 6.8

  • Version de Glibc : 2.35

  • Version d'OpenSSL : 3.0.2

  • FSx Version du client Lustre : 2.15.6-1fsx21

  • Version d'exécution : 1.3.3

  • Version contenue : containerd containerd.io v2.1.5

  • dans la version Neuronx DMS : 2.24.7.0

  • Version du pilote NVIDIA : 580.95.05

  • Version CUDA : 12,6, 12,8, 12,9, 13,0

  • Version du programme d'installation EFA : 2.3.1amzn1.0

  • Version de Python : 3.10.12

  • Version Slurm : 24.11.0

  • Version de nvme-cli : 1.16

  • version anti-stress : 1.0.5

  • Version collectée : 5.12.0.

  • Version du client lustre : 2.15.6-1fsx21

  • version du système : 249

  • version d'openssh : 8.9

  • version sudo : 1.9.9

  • Version UFW : 0.36.1

  • Version gcc : 11.4.0

  • Version de cmake : 3.22.1

  • Version de marque : 4.3

  • Version de l'agent CloudWatch : 1.300062.0b1304-1

  • Version de nfs-utils : 1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils version : 2.1.5-1 ubuntu1.1

  • Version LVM2 : 2.03,11

  • Version ec2-instance-connect : 1.1.14-0ubuntu1.1

  • Version RDMA-Core : 59.amzn0-1

SageMaker HyperPod notes de publication : 07 novembre 2025

L'AMI inclut les éléments suivants :

  • Soutenu Service AWS : Amazon EC2

  • Système d'exploitation : Ubuntu 22.04

  • Architecture informatique : ARM64

  • Packages mis à jour : pilote NVIDIA : 580.95.05

  • Versions de CUDA : cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0

  • Correctifs de sécurité : correctif de sécurité Runc

SageMaker HyperPod notes de publication : 29 septembre 2025

L'AMI inclut les éléments suivants :

  • Soutenu Service AWS : Amazon EC2

  • Système d'exploitation : Ubuntu 22.04

  • Architecture informatique : ARM64

  • Packages mis à jour : pilote NVIDIA : 570.172.08

  • Correctifs de sécurité

SageMaker HyperPod notes de publication : 12 août 2025

L'AMI inclut les éléments suivants :

  • Soutenu Service AWS : Amazon EC2

  • Système d'exploitation : Ubuntu 22.04

  • Architecture informatique : ARM64

  • La dernière version disponible est installée pour les packages suivants :

    • Noyau Linux : 6.8

    • FSx Lustre

    • Docker

    • AWS CLIv2 à /usr/bin/aws

    • NVIDIA DCGM

    • Boîte à outils pour conteneurs Nvidia :

      • Commande de version : nvidia-container-cli -V

    • NVidia-Docker 2 :

      • Commande de version : nvidia-docker version

    • NVidia-IMEX : v570.172.08-1

  • Pilote NVIDIA : 570.158.01

  • Pile NVIDIA CUDA 12,4, 12,5, 12,6, 12,8 :

    • Répertoires d'installation CUDA, NCCL et CudDN : /usr/local/cuda-xx.x/

      • Exemple : /usr/local/cuda-12.8/, /usr/local/cuda-12.8/

    • Version NCCL compilée :

      • Pour le répertoire CUDA de 12.4, compilé la version 2.22.3+ 4 de NCCL CUDA12

      • Pour le répertoire CUDA de 12.5, compilé la version 2.22.3+ .5 de NCCL CUDA12

      • Pour le répertoire CUDA de 12.6, compilé la version NCCL 2.24.3+ .6 CUDA12

      • Pour le répertoire CUDA de 12.8, compilé la version 2.27.5+ de NCCL. CUDA12

    • CUDA par défaut : 12,8

      • PATH /usr/local/cuda pointe vers CUDA 12.8

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATHavoir /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATHavoir /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Pour toute version différente de CUDA, veuillez la mettre à jour LD_LIBRARY_PATH en conséquence.

  • Installateur EFA : 1.42.0

  • Nvidia GDRCopy : 2,5.1

  • AWSLe plugin OFI NCCL est fourni avec le programme d'installation EFA

    • Les chemins /opt/amazon/ofi-nccl/lib/aarch64-linux-gnu et /opt/amazon/ofi-nccl/efa sont ajoutés àLD_LIBRARY_PATH.

  • AWS CLIv2 at /usr/local/bin/aws2 et AWS CLI v1 at /usr/bin/aws

  • Type de volume EBS : GP3

  • Python: /usr/bin/python3.10

SageMaker HyperPod notes de publication : 27 mai 2025

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

Nouvelles fonctionnalités et améliorations

  • Mise à jour de l’AMI de base vers Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523 avec les composants clés suivants :

    • Pilote NVIDIA : 570.133.20

    • CUDA : 12.8 (par défaut), avec prise en charge pour CUDA 12.4-12.6

    • Version NCCL : 2.26.5

    • Programme d’installation d’EFA : 1.40.0

    • AWSNCCL OFI : 1.14.2-aws

  • Packages du kit SDK Neuron mis à jour :

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (à partir de 2.24.59.0-838c7fc8b)

    • aws-neuronx-dkms: 2.21.37.0 (à partir de 2.20.28.0)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (à partir de 2.24.53.0-f239092cc)

    • aws-neuronx-tools: 2.23.9.0 (à partir de 2.22.61.0)

Remarques importantes

  • NVIDIA Container Toolkit 1.17.4 a désormais désactivé le montage des bibliothèques compatibles CUDA.

  • Mise à jour de la configuration EFA de la version 1.37 à 1.38, et EFA inclut désormais le plug-in AWS OFI NCCL, qui se trouve dans le répertoire /opt/amazon/ofi-nccl et non plus dans le chemin d’origine /opt/aws-ofi-nccl/. (Publié le 18 février 2025)

  • La version du noyau est épinglée pour des raisons de stabilité et de compatibilité des pilotes.

SageMaker HyperPod Sortie d'AMI pour Slurm : 13 mai 2025

Amazon SageMaker HyperPod a publié une AMI mise à jour qui prend en charge Ubuntu 22.04 LTS pour les clusters Slurm. AWSdes mises AMIs à jour régulières pour garantir que vous avez accès à la pile logicielle la plus récente. La mise à niveau vers la dernière AMI améliore la sécurité grâce à des mises à jour complètes des packages, fournit des performances et une stabilité améliorées pour vos charges de travail, et assure la compatibilité avec les nouveaux types d’instances et les dernières fonctionnalités du noyau.

Important

La mise à jour d’Ubuntu 20.04 LTS vers Ubuntu 22.04 LTS introduit des modifications susceptibles d’affecter la compatibilité avec les logiciels et les configurations conçus pour Ubuntu 20.04.

Principales mises à jour de l’AMI Ubuntu 22.04

Le tableau suivant répertorie les versions des composants de l’AMI Ubuntu 22.04 par rapport à l’AMI précédente.

Versions des composants de l’AMI Ubuntu 22.04 comparées à l’AMI précédente
Composant Version précédente Version mise à jour

Système d’exploitation Ubuntu

20.04 LTS

22.04 LTS

Bidouste

24,11

24.11 (inchangée)

Python

3.8 (par défaut)

3.10 (par défaut)

Elastic Fabric Adapter (EFA) sur Amazon FSx

Non pris en charge

Pris en charge

Noyau Linux

5,15

6.8

Bibliothèque GNU C (glibc)

2,31

2,35

Collection de compilateurs GNU (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

≥ 2.35 prise en charge

Network File System (NFS)

1:1.3.4

1:2.6.1

Note

Bien que la version de Slurm (24.11) reste inchangée, les mises à jour du système d’exploitation et de la bibliothèque sous-jacents dans cette AMI peuvent affecter le comportement de votre système et la compatibilité des charges de travail. Vous devez tester vos charges de travail avant de mettre à niveau les clusters de production.

Mise à niveau vers l’AMI Ubuntu 22.04

Avant de mettre à niveau votre cluster vers l’AMI Ubuntu 22.04, effectuez ces étapes de préparation et passez en revue les exigences de mise à niveau. Pour dépanner les échecs de mise à niveau, consultez Dépannage des échecs de mise à niveau.

Vérification de la compatibilité Python

L’AMI Ubuntu 22.04 utilise Python 3.10 comme version par défaut, mise à niveau depuis Python 3.8. Bien que Python 3.10 reste compatible avec la plupart du code Python 3.8, vous devez tester vos charges de travail existantes avant de procéder à la mise à niveau. Si vos charges de travail nécessitent Python 3.8, vous pouvez l’installer à l’aide de la commande suivante dans votre script de cycle de vie :

yum install python-3.8

Avant de mettre à niveau votre cluster, assurez-vous de procéder comme suit :

  1. Testez la compatibilité de votre code avec Python 3.10.

  2. Vérifiez que vos scripts de cycle de vie fonctionnent dans le nouvel environnement.

  3. Vérifiez que toutes les dépendances sont compatibles avec la nouvelle version de Python.

  4. Si vous avez créé votre HyperPod cluster en copiant le script de cycle de vie par défaut à partir de GitHub, ajoutez la commande suivante à votre setup_mariadb_accounting.sh fichier avant de passer à Ubuntu 22. Pour le script complet, consultez le fichier setup_mariadb_accounting.sh sur GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Mise à niveau de votre cluster Slurm

Vous pouvez mettre à niveau votre cluster Slurm pour utiliser la nouvelle AMI de deux manières :

  1. Créez un nouveau cluster à l’aide de l’API CreateCluster.

  2. Mettez à jour le logiciel d’un cluster existant à l’aide de l’API UpdateClusterSoftware.

Configurations validées

AWSa testé un large éventail de charges de travail de formation distribuées et de fonctionnalités d'infrastructure sur des instances G5, G6, G6e, P4d, P5 et Trn1, notamment :

  • Formation distribuée avec PyTorch (par exemple, FSDP, LLa MA NeMo, MNIST).

  • Tests d'accélérateurs sur différents types d'instances avec Nvidia (série P/G) et AWS Neuron (Trn1).

  • Fonctionnalités de résilience incluant la reprise automatique et les surveillances de l’état approfondies.

Durée d’indisponibilité et disponibilité du cluster

Au cours du processus de mise à niveau, le cluster sera indisponible. Pour minimiser les interruptions, procédez comme suit :

  • Testez le processus de mise à niveau sur des clusters plus petits.

  • Créez des points de contrôle avant la mise à niveau, puis redémarrez les charges de travail d’entraînement à partir des points de contrôle existants une fois la mise à niveau terminée.

Dépannage des échecs de mise à niveau

Lorsqu’une mise à niveau échoue, commencez par déterminer si l’échec est lié aux scripts de cycle de vie. Ces scripts échouent généralement en raison d’erreurs de syntaxe, de dépendances manquantes ou de configurations incorrectes.

Pour étudier les défaillances liées aux scripts de cycle de vie, consultez CloudWatch les journaux. Tous les SageMaker HyperPod événements et journaux sont stockés dans le groupe de journaux :/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Examinez en particulier le flux de journaux LifecycleConfig/[instance-group-name]/[instance-id], qui fournit des informations détaillées sur les erreurs éventuelles survenant lors de l’exécution du script.

Si l’échec de la mise à niveau n’est pas lié aux scripts de cycle de vie, collectez les informations pertinentes, notamment l’ARN du cluster, les journaux d’erreurs et les horodatages, puis contactez le AWS Support pour obtenir de l’aide.

SageMaker HyperPod Sortie de l'AMI pour Slurm : 07 mai 2025

Amazon SageMaker HyperPod pour Slurm a publié une mise à niveau majeure du système d'exploitation vers Ubuntu 22.04 (par rapport à la version précédente d'Ubuntu 20.04). Consultez la DLAMI Ubuntu 22.04 (notes de mise à jour) pour plus d’informations : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.

Principales mises à niveau des packages :

  • Ubuntu 22.04 LTS (à partir de 20.04)

  • Version de Python :

    • Python 3.10 est désormais la version de Python par défaut dans l’AMI Ubuntu 22.04 de Slurm.

    • Cette mise à niveau donne accès aux dernières fonctionnalités, améliorations de performances et corrections de bogues introduites dans Python 3.10.

  • Support pour EFA sur FSx

  • Nouvelle version 6.8 du noyau Linux (mise à jour à partir de 5.15)

  • Version Glibc : 2.35 (mise à jour à partir de 2.31)

  • Version GCC : 11.4.0 (mise à jour à partir de 9.4.0)

  • Prise en charge de la nouvelle version libc6 (à partir de la version libc6 <= 2.31)

  • Version NFS : 1:2.6.1 (mise à jour à partir de 1:1.3.4)

SageMaker HyperPod Sortie de l'AMI pour Slurm : 28 avril 2025

Améliorations pour Slurm

Support Amazon SageMaker HyperPod DLAMI pour Slurm

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-collectives: 2,24,59,0-838c7fc8b

  • aws-neuronx-dkms: 2,20,28,0

  • aws-neuronx-runtime-lib: 2,24,53,0-f239092 cc

  • aws-neuronx-tools/inconnu : 2.22.61.0

SageMaker HyperPod Sortie de l'AMI pour Slurm : 18 février 2025

Améliorations pour Slurm

  • Mise à niveau de la version de Slurm vers 24.11.

  • Mise à niveau de la version Elastic Fabric Adapter (EFA) de 1.37.0 à 1.38.0.

  • L'EFA inclut désormais le plugin AWS OFI NCCL. Vous pouvez trouver ce plug-in dans le répertoire /opt/amazon/ofi-nccl, plutôt que dans son emplacement /opt/aws-ofi-nccl/ d’origine. Si vous devez mettre à jour votre variable d’environnement LD_LIBRARY_PATH, assurez-vous de modifier le chemin pour qu’il pointe vers le nouvel emplacement /opt/amazon/ofi-nccl du plug-in OFI NCCL.

  • J'ai supprimé le package Emacs de ceux-ci DLAMIs. Vous pouvez installer emacs depuis GNU emac.

Support Amazon SageMaker HyperPod DLAMI pour Slurm

Installed the latest version ofAWSNeuron SDK 2.19
  • aws-neuronx-collectives/inconnu : 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/inconnu : 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/inconnu : 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/inconnu : 2.20.204.0 amd64

SageMaker HyperPod Sortie d'AMI pour Slurm : 21 décembre 2024

SageMaker HyperPod Assistance DLAMI pour Slurm

Deep Learning Slurm AMI
  • Pilote NVIDIA : 550.127.05

  • Pilote EFA : 2.13.0-1

  • Installation de la dernière version du SDK AWS Neuron

    • aws-neuronx-collectives: 2,22.33.0

    • aws-neuronx-dkms: 2,18,20,0

    • aws-neuronx-oci-hook: 2,5,8.0

    • aws-neuronx-runtime-lib: 2,22,19,0

    • aws-neuronx-tools: 2,19,0.0

SageMaker HyperPod Sortie d'AMI pour Slurm : 24 novembre 2024

Mises à jour générales de l’AMI

  • Publication dans la région MEL (Melbourne).

  • DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :

    • Slurm : 2024-11-22.

SageMaker HyperPod Sortie d'AMI pour Slurm : 15 novembre 2024

Mises à jour générales de l’AMI

  • Dernier package libnvidia-nscq-xxx installé.

SageMaker HyperPod Assistance DLAMI pour Slurm

Deep Learning Slurm AMI
  • Pilote NVIDIA : 550.127.05

  • Pilote EFA : 2.13.0-1

  • Installation de la dernière version du SDK AWS Neuron

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Sortie d'AMI pour Slurm : 11 novembre 2024

Mises à jour générales de l’AMI

  • DLAMI SageMaker HyperPod de base mis à jour vers la version suivante :

    • Slurm : 2024-10-23.

SageMaker HyperPod Sortie d'AMI pour Slurm : 21 octobre 2024

Mises à jour générales de l’AMI

  • DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :

    • Slurm : 2024-09-27.

SageMaker HyperPod Sortie de l'AMI pour Slurm : 10 septembre 2024

SageMaker HyperPod Assistance DLAMI pour Slurm

Deep Learning Slurm AMI
  • Installation du pilote NVIDIA v550.90.07

  • Installation du pilote EFA v2.10

  • Installation de la dernière version du SDK AWS Neuron

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Sortie d'AMI pour Slurm : 14 mars 2024

HyperPod Correctif logiciel DLAMI pour Slurm

  • Mise à niveau de Slurm vers la version 23.11.1

  • Ajout d'Open PMIx v4.2.6 pour activer Slurm avec. PMIx

  • Construit sur l’AMI GPU AWS Deep Learning Base (Ubuntu 20.04) publiée le 26/10/2023

  • Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base

    • Slurm : v23.11.1

    • Ouvert PMIx  : v4.2.6

    • Munge : v0.5.15

    • aws-neuronx-dkms : v2.*

    • aws-neuronx-collectives : v2.*

    • aws-neuronx-runtime-lib : v2.*

    • aws-neuronx-tools : v2.*

    • SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique

Étapes de mise à niveau

  • Exécutez la commande suivante pour appeler l'UpdateClusterSoftwareAPI afin de mettre à jour vos HyperPod clusters existants avec le DLAMI le plus récent HyperPod . Pour obtenir des instructions supplémentaires, consultez Mettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

    Important

    Sauvegardez votre travail avant d’exécuter cette API. Le processus d’application de correctifs remplace le volume racine par l’AMI mise à jour, ce qui signifie que les données précédemment stockées dans le volume racine de l’instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Note

    Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.

SageMaker HyperPod Sortie de l'AMI pour Slurm : 29 novembre 2023

HyperPod Correctif logiciel DLAMI pour Slurm

L'équipe HyperPod de service distribue des correctifs logiciels par le biais deSageMaker HyperPod DLAMI. Consultez les informations suivantes sur le dernier HyperPod DLAMI.

  • Construit sur l’AMI GPU AWS Deep Learning Base (Ubuntu 20.04) publiée le 18/10/2023

  • Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base

    • Slurm : v23.02.3

    • Munge : v0.5.15

    • aws-neuronx-dkms : v2.*

    • aws-neuronx-collectives : v2.*

    • aws-neuronx-runtime-lib : v2.*

    • aws-neuronx-tools : v2.*

    • SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique