SageMaker HyperPod Publications d'AMI pour Slurm - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod Publications d'AMI pour Slurm

Les notes de mise à jour suivantes présentent les dernières mises à jour des versions Amazon SageMaker HyperPod AMI pour l'orchestration de Slurm. Ils HyperPod AMIs sont basés sur l'AMI GPU AWS Deep Learning Base (Ubuntu 22.04). L'équipe HyperPod de service distribue des correctifs logiciels viaSageMaker HyperPod DLAMI. Pour les versions d' HyperPod AMI pour l'orchestration d'Amazon EKS, consultezSageMaker HyperPod Publications d'AMI pour Amazon EKS. Pour plus d'informations sur les versions des SageMaker HyperPod fonctionnalités d'Amazon, consultezNotes de SageMaker HyperPod publication d'Amazon.

Note

Pour mettre à jour les HyperPod clusters existants avec le DLAMI le plus récent, consultez. Mettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster

SageMaker HyperPod Sortie d'AMI pour Slurm : 13 mai 2025

Amazon SageMaker HyperPod a publié une AMI mise à jour qui prend en charge Ubuntu 22.04 LTS pour les clusters Slurm. AWS des mises AMIs à jour régulières pour garantir que vous avez accès à la pile logicielle la plus récente. La mise à niveau vers la dernière AMI améliore la sécurité grâce à des mises à jour complètes des packages, à des performances et à une stabilité améliorées pour vos charges de travail, ainsi qu'à la compatibilité avec les nouveaux types d'instances et les dernières fonctionnalités du noyau.

Important

La mise à jour d'Ubuntu 20.04 LTS vers Ubuntu 22.04 LTS introduit des modifications susceptibles d'affecter la compatibilité avec les logiciels et les configurations conçus pour Ubuntu 20.04.

Principales mises à jour de l'AMI Ubuntu 22.04

Le tableau suivant répertorie les versions des composants de l'AMI Ubuntu 22.04 par rapport à l'AMI précédente.

Versions des composants de l'AMI Ubuntu 22.04 comparées à l'AMI précédente
Composant Version précédente Version mise à jour

Système d'exploitation Ubuntu

20,04 LITRES

22.04 LTS

Sluth

24,11

24.11 (inchangé)

Python

3.8 (par défaut)

3.10 (par défaut)

Elastic Fabric Adapter (EFA) sur Amazon FSx

Non pris en charge

Pris en charge

Noyau Linux

5,15

6.8

Bibliothèque GNU C (glibc)

2,31

2,35

Collection de compilateurs GNU (GCC)

9.4.0

11.4.0

libc6

≤ 2,31

≥ 2,35 pris en charge

Système de fichiers réseau (NFS)

1:1,3 .4

1:2.6.1

Note

Bien que la version Slurm (24.11) reste inchangée, les mises à jour du système d'exploitation et de la bibliothèque sous-jacents dans cette AMI peuvent affecter le comportement de votre système et la compatibilité de la charge de travail. Vous devez tester vos charges de travail avant de mettre à niveau les clusters de production.

Mise à niveau vers l'AMI Ubuntu 22.04

Avant de mettre à niveau votre cluster vers l'AMI Ubuntu 22.04, effectuez ces étapes de préparation et passez en revue les exigences de mise à niveau. Pour résoudre les problèmes liés aux échecs de mise à niveau, consultezRésolution des problèmes de mise à niveau.

Vérifier la compatibilité avec Python

L'AMI Ubuntu 22.04 utilise Python 3.10 comme version par défaut, mise à niveau depuis Python 3.8. Bien que Python 3.10 reste compatible avec la plupart du code Python 3.8, vous devez tester vos charges de travail existantes avant de procéder à la mise à niveau. Si vos charges de travail nécessitent Python 3.8, vous pouvez l'installer à l'aide de la commande suivante dans votre script de cycle de vie :

yum install python-3.8

Avant de mettre à niveau votre cluster, veillez à effectuer les opérations suivantes :

  1. Testez la compatibilité de votre code avec Python 3.10.

  2. Vérifiez que vos scripts de cycle de vie fonctionnent dans le nouvel environnement.

  3. Vérifiez que toutes les dépendances sont compatibles avec la nouvelle version de Python.

  4. Si vous avez créé votre HyperPod cluster en copiant le script de cycle de vie par défaut depuis GitHub, ajoutez la commande suivante à votre setup_mariadb_accounting.sh fichier avant de passer à Ubuntu 22. Pour le script complet, consultez le fichier setup_mariadb_accounting.sh sur GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Améliorez votre cluster Slurm

Vous pouvez mettre à niveau votre cluster Slurm pour utiliser la nouvelle AMI de deux manières :

  1. Créez un nouveau cluster à l'aide de l'CreateClusterAPI.

  2. Mettez à jour le logiciel d'un cluster existant à l'aide de l'UpdateClusterSoftwareAPI.

Configurations validées

AWS a testé un large éventail de charges de travail de formation distribuées et de fonctionnalités d'infrastructure sur des instances G5, G6, G6e, P4d, P5 et Trn1, notamment :

  • Formation distribuée avec PyTorch (par exemple, FSDP, LLa MA NeMo, MNIST).

  • Tests d'accélérateurs sur différents types d'instances avec Nvidia (série P/G) et AWS Neuron (Trn1).

  • Fonctionnalités de résilience qui incluent la reprise automatique et des contrôles de santé approfondis.

Temps d'indisponibilité et disponibilité du cluster

Pendant le processus de mise à niveau, le cluster ne sera pas disponible. Pour minimiser les perturbations, procédez comme suit :

  • Testez le processus de mise à niveau sur des clusters plus petits.

  • Créez des points de contrôle avant la mise à niveau, puis redémarrez les charges de travail de formation à partir des points de contrôle existants une fois la mise à niveau terminée.

Résolution des problèmes de mise à niveau

Lorsqu'une mise à niveau échoue, déterminez d'abord si l'échec est lié à des scripts de cycle de vie. Ces scripts échouent généralement en raison d'erreurs de syntaxe, de dépendances manquantes ou de configurations incorrectes.

Pour étudier les défaillances liées aux scripts de cycle de vie, consultez CloudWatch les journaux. Tous les SageMaker HyperPod événements et journaux sont stockés dans le groupe de journaux :/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Examinez en particulier le flux de journalLifecycleConfig/[instance-group-name]/[instance-id], qui fournit des informations détaillées sur les erreurs éventuelles survenant lors de l'exécution du script.

Si l'échec de la mise à niveau n'est pas lié aux scripts du cycle de vie, collectez les informations pertinentes, notamment l'ARN du cluster, les journaux d'erreurs et les horodatages, puis contactez le AWS support pour obtenir de l'aide.

SageMaker HyperPod Sortie de l'AMI pour Slurm : 07 mai 2025

Amazon SageMaker HyperPod pour Slurm a publié une mise à niveau majeure du système d'exploitation vers Ubuntu 22.04 (par rapport à la version précédente d'Ubuntu 20.04). Consultez DLAMI Ubuntu 22.04 (notes de version) pour plus d'informations :. Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Principales mises à niveau du package :

  • Ubuntu 22.04 LTS (à partir du 20.04)

  • Version Python :

    • Python 3.10 est désormais la version Python par défaut dans l'AMI Slurm d'Ubuntu 22.04

    • Cette mise à niveau donne accès aux dernières fonctionnalités, améliorations de performances et corrections de bogues introduites dans Python 3.10

  • Support pour EFA sur FSx

  • Nouvelle version 6.8 du noyau Linux (mise à jour à partir de la version 5.15)

  • Version Glibc : 2.35 (mise à jour depuis 2.31)

  • Version GCC : 11.4.0 (mise à jour à partir de 9.4.0)

  • Support des nouvelles versions de libc6 (à partir de la version libc6 <= 2.31)

  • Version NFS : 1:2.6 .1 (mise à jour à partir de 1:1.3 .4)

SageMaker HyperPod Sortie de l'AMI pour Slurm : 28 avril 2025

Améliorations apportées à Slurm

Support Amazon SageMaker HyperPod DLAMI pour Slurm

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2,24,59,0-838c7fc8b

  • aws-neuronx-dkms: 2,20,28,0

  • aws-neuronx-runtime-lib: 2,24,53,0-f239092 cc

  • aws-neuronx-tools/inconnu : 2.22.61.0

SageMaker HyperPod Sortie de l'AMI pour Slurm : 18 février 2025

Améliorations apportées à Slurm

  • Mise à niveau de la version Slurm vers la version 24.11.

  • Version Elastic Fabric Adapter (EFA) mise à niveau de la version 1.37.0 à 1.38.0.

  • L'EFA inclut désormais le plugin AWS OFI NCCL. Vous pouvez trouver ce plugin dans le /opt/amazon/ofi-nccl répertoire, plutôt que dans son /opt/aws-ofi-nccl/ emplacement d'origine. Si vous devez mettre à jour votre variable d'LD_LIBRARY_PATHenvironnement, assurez-vous de modifier le chemin pour qu'il pointe vers le nouvel /opt/amazon/ofi-nccl emplacement du plugin OFI NCCL.

  • J'ai supprimé le package Emacs de ceux-ci DLAMIs. Vous pouvez installer Emacs depuis GNU Emac.

Support Amazon SageMaker HyperPod DLAMI pour Slurm

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/inconnu : 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/inconnu : 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/inconnu : 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/inconnu : 2.20.204.0 amd64

SageMaker HyperPod Sortie d'AMI pour Slurm : 21 décembre 2024

SageMaker HyperPod Assistance DLAMI pour Slurm

Deep Learning Slurm AMI
  • pilote NVIDIA : 550.127.05

  • pilote EFA : 2.13.0-1

  • Installation de la dernière version du SDK AWS Neuron

    • aws-neuronx-collectives: 2,22.33,0

    • aws-neuronx-dkms: 2,18,20,0

    • aws-neuronx-oci-hook: 2,5,8.0

    • aws-neuronx-runtime-lib: 2,22,19,0

    • aws-neuronx-tools: 2,19,0.0

SageMaker HyperPod Sortie d'AMI pour Slurm : 24 novembre 2024

Mises à jour générales de l'AMI

  • Publié dans la région MEL (Melbourne).

  • DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :

    • Bordure : 22/11/2024.

SageMaker HyperPod Sortie d'AMI pour Slurm : 15 novembre 2024

Mises à jour générales de l'AMI

  • Le dernier libnvidia-nscq-xxx package est installé.

SageMaker HyperPod Assistance DLAMI pour Slurm

Deep Learning Slurm AMI
  • pilote NVIDIA : 550.127.05

  • pilote EFA : 2.13.0-1

  • Installation de la dernière version du SDK AWS Neuron

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Sortie d'AMI pour Slurm : 11 novembre 2024

Mises à jour générales de l'AMI

  • DLAMI SageMaker HyperPod de base mis à jour vers la version suivante :

    • Bordure : 23/10/2024.

SageMaker HyperPod Sortie d'AMI pour Slurm : 21 octobre 2024

Mises à jour générales de l'AMI

  • DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :

    • Slurm : 27/09/2024.

SageMaker HyperPod Sortie de l'AMI pour Slurm : 10 septembre 2024

SageMaker HyperPod Assistance DLAMI pour Slurm

Deep Learning Slurm AMI
  • Installation du pilote NVIDIA v550.90.07

  • Installation du pilote EFA v2.10

  • Installation de la dernière version du SDK AWS Neuron

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Sortie de l'AMI pour Slurm : 14 mars 2024

HyperPod Correctif logiciel DLAMI pour Slurm

  • Mise à niveau de Slurm vers la version 23.11.1

  • Ajout d'Open PMIx v4.2.6 pour activer Slurm avec. PMIx

  • Construit sur l'AMI GPU AWS Deep Learning Base (Ubuntu 20.04) publiée le 26/10/2023

  • Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base

    • Slurm : v23.11.1

    • Ouvert PMIx  : v4.2.6

    • Munge : v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique

étapes de mise à niveau

  • Exécutez la commande suivante pour appeler l'UpdateClusterSoftwareAPI afin de mettre à jour vos HyperPod clusters existants avec le DLAMI le plus récent HyperPod . Pour obtenir des instructions supplémentaires, consultezMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

    Important

    Sauvegardez votre travail avant d'exécuter cette API. Le processus d'application des correctifs remplace le volume racine par l'AMI mise à jour, ce qui signifie que les données précédemment stockées dans le volume racine de l'instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Note

    Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.

SageMaker HyperPod Sortie de l'AMI pour Slurm : 29 novembre 2023

HyperPod Correctif logiciel DLAMI pour Slurm

L'équipe HyperPod de service distribue des correctifs logiciels viaSageMaker HyperPod DLAMI. Consultez les informations suivantes sur le dernier HyperPod DLAMI.

  • Construit sur l'AMI GPU AWS Deep Learning Base (Ubuntu 20.04) publiée le 18/10/2023

  • Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base

    • Slurm : v23.02.3

    • Munge : v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique