Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod Publications d'AMI pour Slurm
Les notes de mise à jour suivantes présentent les dernières mises à jour des versions Amazon SageMaker HyperPod AMI pour l'orchestration de Slurm. Ils HyperPod AMIs sont basés sur l'AMI GPU AWS Deep Learning Base (Ubuntu 22.04).
Note
Pour mettre à jour les HyperPod clusters existants avec le DLAMI le plus récent, consultez. Mettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster
SageMaker HyperPod Sortie d'AMI pour Slurm : 13 mai 2025
Amazon SageMaker HyperPod a publié une AMI mise à jour qui prend en charge Ubuntu 22.04 LTS pour les clusters Slurm. AWS des mises AMIs à jour régulières pour garantir que vous avez accès à la pile logicielle la plus récente. La mise à niveau vers la dernière AMI améliore la sécurité grâce à des mises à jour complètes des packages, à des performances et à une stabilité améliorées pour vos charges de travail, ainsi qu'à la compatibilité avec les nouveaux types d'instances et les dernières fonctionnalités du noyau.
Important
La mise à jour d'Ubuntu 20.04 LTS vers Ubuntu 22.04 LTS introduit des modifications susceptibles d'affecter la compatibilité avec les logiciels et les configurations conçus pour Ubuntu 20.04.
Dans cette note de mise à jour, vous verrez :
Principales mises à jour de l'AMI Ubuntu 22.04
Le tableau suivant répertorie les versions des composants de l'AMI Ubuntu 22.04 par rapport à l'AMI précédente.
Composant | Version précédente | Version mise à jour |
---|---|---|
Système d'exploitation Ubuntu |
20,04 LITRES |
22.04 LTS |
Sluth |
24,11 |
24.11 (inchangé) |
Python |
3.8 (par défaut) |
3.10 (par défaut) |
Elastic Fabric Adapter (EFA) sur Amazon FSx |
Non pris en charge |
Pris en charge |
Noyau Linux |
5,15 |
6.8 |
Bibliothèque GNU C (glibc) |
2,31 |
2,35 |
Collection de compilateurs GNU (GCC) |
9.4.0 |
11.4.0 |
libc6 |
≤ 2,31 |
≥ 2,35 pris en charge |
Système de fichiers réseau (NFS) |
1:1,3 .4 |
1:2.6.1 |
Note
Bien que la version Slurm (24.11) reste inchangée, les mises à jour du système d'exploitation et de la bibliothèque sous-jacents dans cette AMI peuvent affecter le comportement de votre système et la compatibilité de la charge de travail. Vous devez tester vos charges de travail avant de mettre à niveau les clusters de production.
Mise à niveau vers l'AMI Ubuntu 22.04
Avant de mettre à niveau votre cluster vers l'AMI Ubuntu 22.04, effectuez ces étapes de préparation et passez en revue les exigences de mise à niveau. Pour résoudre les problèmes liés aux échecs de mise à niveau, consultezRésolution des problèmes de mise à niveau.
Vérifier la compatibilité avec Python
L'AMI Ubuntu 22.04 utilise Python 3.10 comme version par défaut, mise à niveau depuis Python 3.8. Bien que Python 3.10 reste compatible avec la plupart du code Python 3.8, vous devez tester vos charges de travail existantes avant de procéder à la mise à niveau. Si vos charges de travail nécessitent Python 3.8, vous pouvez l'installer à l'aide de la commande suivante dans votre script de cycle de vie :
yum install python-3.8
Avant de mettre à niveau votre cluster, veillez à effectuer les opérations suivantes :
-
Testez la compatibilité de votre code avec Python 3.10.
-
Vérifiez que vos scripts de cycle de vie fonctionnent dans le nouvel environnement.
-
Vérifiez que toutes les dépendances sont compatibles avec la nouvelle version de Python.
-
Si vous avez créé votre HyperPod cluster en copiant le script de cycle de vie par défaut depuis GitHub, ajoutez la commande suivante à votre
setup_mariadb_accounting.sh
fichier avant de passer à Ubuntu 22. Pour le script complet, consultez le fichier setup_mariadb_accounting.sh sur GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Améliorez votre cluster Slurm
Vous pouvez mettre à niveau votre cluster Slurm pour utiliser la nouvelle AMI de deux manières :
-
Créez un nouveau cluster à l'aide de l'
CreateCluster
API. -
Mettez à jour le logiciel d'un cluster existant à l'aide de l'
UpdateClusterSoftware
API.
Configurations validées
AWS a testé un large éventail de charges de travail de formation distribuées et de fonctionnalités d'infrastructure sur des instances G5, G6, G6e, P4d, P5 et Trn1, notamment :
-
Formation distribuée avec PyTorch (par exemple, FSDP, LLa MA NeMo, MNIST).
-
Tests d'accélérateurs sur différents types d'instances avec Nvidia (série P/G) et AWS Neuron (Trn1).
-
Fonctionnalités de résilience qui incluent la reprise automatique et des contrôles de santé approfondis.
Temps d'indisponibilité et disponibilité du cluster
Pendant le processus de mise à niveau, le cluster ne sera pas disponible. Pour minimiser les perturbations, procédez comme suit :
-
Testez le processus de mise à niveau sur des clusters plus petits.
-
Créez des points de contrôle avant la mise à niveau, puis redémarrez les charges de travail de formation à partir des points de contrôle existants une fois la mise à niveau terminée.
Résolution des problèmes de mise à niveau
Lorsqu'une mise à niveau échoue, déterminez d'abord si l'échec est lié à des scripts de cycle de vie. Ces scripts échouent généralement en raison d'erreurs de syntaxe, de dépendances manquantes ou de configurations incorrectes.
Pour étudier les défaillances liées aux scripts de cycle de vie, consultez CloudWatch les journaux. Tous les SageMaker HyperPod événements et journaux sont stockés dans le groupe de journaux :/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
. Examinez en particulier le flux de journalLifecycleConfig/[instance-group-name]/[instance-id]
, qui fournit des informations détaillées sur les erreurs éventuelles survenant lors de l'exécution du script.
Si l'échec de la mise à niveau n'est pas lié aux scripts du cycle de vie, collectez les informations pertinentes, notamment l'ARN du cluster, les journaux d'erreurs et les horodatages, puis contactez le AWS support
SageMaker HyperPod Sortie de l'AMI pour Slurm : 07 mai 2025
Amazon SageMaker HyperPod pour Slurm a publié une mise à niveau majeure du système d'exploitation vers Ubuntu 22.04 (par rapport à la version précédente d'Ubuntu 20.04). Consultez DLAMI Ubuntu 22.04 (notes de versionDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Principales mises à niveau du package :
-
Ubuntu 22.04 LTS (à partir du 20.04)
-
Version Python :
-
Python 3.10 est désormais la version Python par défaut dans l'AMI Slurm d'Ubuntu 22.04
-
Cette mise à niveau donne accès aux dernières fonctionnalités, améliorations de performances et corrections de bogues introduites dans Python 3.10
-
-
Support pour EFA sur FSx
-
Nouvelle version 6.8 du noyau Linux (mise à jour à partir de la version 5.15)
-
Version Glibc : 2.35 (mise à jour depuis 2.31)
-
Version GCC : 11.4.0 (mise à jour à partir de 9.4.0)
-
Support des nouvelles versions de libc6 (à partir de la version libc6 <= 2.31)
-
Version NFS : 1:2.6 .1 (mise à jour à partir de 1:1.3 .4)
SageMaker HyperPod Sortie de l'AMI pour Slurm : 28 avril 2025
Améliorations apportées à Slurm
-
Pilote NVIDIA mis à jour de la version 550.144.03 à la version 550.163.01. Cette mise à niveau vise à remédier aux vulnérabilités et expositions courantes (CVEs) présentes dans le bulletin de sécurité de l'affichage des GPU NVIDIA d'avril 2025
.
Support Amazon SageMaker HyperPod DLAMI pour Slurm
SageMaker HyperPod Sortie de l'AMI pour Slurm : 18 février 2025
Améliorations apportées à Slurm
-
Mise à niveau de la version Slurm vers la version 24.11.
-
Version Elastic Fabric Adapter (EFA) mise à niveau de la version 1.37.0 à 1.38.0.
-
L'EFA inclut désormais le plugin AWS OFI NCCL. Vous pouvez trouver ce plugin dans le
/opt/amazon/ofi-nccl
répertoire, plutôt que dans son/opt/aws-ofi-nccl/
emplacement d'origine. Si vous devez mettre à jour votre variable d'LD_LIBRARY_PATH
environnement, assurez-vous de modifier le chemin pour qu'il pointe vers le nouvel/opt/amazon/ofi-nccl
emplacement du plugin OFI NCCL. -
J'ai supprimé le package Emacs de ceux-ci DLAMIs. Vous pouvez installer Emacs depuis GNU Emac.
Support Amazon SageMaker HyperPod DLAMI pour Slurm
SageMaker HyperPod Sortie d'AMI pour Slurm : 21 décembre 2024
SageMaker HyperPod Assistance DLAMI pour Slurm
SageMaker HyperPod Sortie d'AMI pour Slurm : 24 novembre 2024
Mises à jour générales de l'AMI
-
Publié dans la région
MEL
(Melbourne). -
DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :
-
Bordure : 22/11/2024.
-
SageMaker HyperPod Sortie d'AMI pour Slurm : 15 novembre 2024
Mises à jour générales de l'AMI
-
Le dernier
libnvidia-nscq-xxx
package est installé.
SageMaker HyperPod Assistance DLAMI pour Slurm
SageMaker HyperPod Sortie d'AMI pour Slurm : 11 novembre 2024
Mises à jour générales de l'AMI
-
DLAMI SageMaker HyperPod de base mis à jour vers la version suivante :
-
Bordure : 23/10/2024.
-
SageMaker HyperPod Sortie d'AMI pour Slurm : 21 octobre 2024
Mises à jour générales de l'AMI
-
DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :
-
Slurm : 27/09/2024.
-
SageMaker HyperPod Sortie de l'AMI pour Slurm : 10 septembre 2024
SageMaker HyperPod Assistance DLAMI pour Slurm
SageMaker HyperPod Sortie de l'AMI pour Slurm : 14 mars 2024
HyperPod Correctif logiciel DLAMI pour Slurm
-
Mise à niveau de Slurm
vers la version 23.11.1 -
Construit sur l'AMI GPU AWS Deep Learning Base (Ubuntu 20.04)
publiée le 26/10/2023 -
Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base
-
Slurm
: v23.11.1 -
Ouvert PMIx
: v4.2.6 -
Munge : v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique
-
étapes de mise à niveau
-
Exécutez la commande suivante pour appeler l'UpdateClusterSoftwareAPI afin de mettre à jour vos HyperPod clusters existants avec le DLAMI le plus récent HyperPod . Pour obtenir des instructions supplémentaires, consultezMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.
Important
Sauvegardez votre travail avant d'exécuter cette API. Le processus d'application des correctifs remplace le volume racine par l'AMI mise à jour, ce qui signifie que les données précédemment stockées dans le volume racine de l'instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
Note
Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.
SageMaker HyperPod Sortie de l'AMI pour Slurm : 29 novembre 2023
HyperPod Correctif logiciel DLAMI pour Slurm
L'équipe HyperPod de service distribue des correctifs logiciels viaSageMaker HyperPod DLAMI. Consultez les informations suivantes sur le dernier HyperPod DLAMI.
-
Construit sur l'AMI GPU AWS Deep Learning Base (Ubuntu 20.04)
publiée le 18/10/2023 -
Liste complète des packages préinstallés dans ce DLAMI HyperPod en plus de l'AMI de base
-
Slurm
: v23.02.3 -
Munge : v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique
-