Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod Publications d'AMI pour Amazon EKS
Les notes de mise à jour suivantes présentent les dernières mises à jour des versions Amazon SageMaker HyperPod AMI pour l'orchestration Amazon EKS. Chaque note de mise à jour inclut une liste résumée des packages préinstallés ou préconfigurés pour le support SageMaker HyperPod DLAMIs Amazon EKS. Chaque DLAMI est construit AL2 sur 023 et prend en charge une version spécifique de Kubernetes. Pour les versions HyperPod de DLAMI pour l'orchestration de Slurm, voir. SageMaker HyperPod Publications d'AMI pour Slurm Pour plus d'informations sur les versions des SageMaker HyperPod fonctionnalités d'Amazon, consultezNotes de SageMaker HyperPod publication d'Amazon.
SageMaker Publications de l'AMI Hyperpod pour Amazon EKS : 22 novembre 2025
Mises à jour générales de l’AMI
-
Mises à jour publiées pour SageMaker l'AMI Hyperpod pour Amazon EKS versions 1.28, 1.29, 1.30, 1.31, 1.32, 1.33.
SageMaker Assistance relative au DLAMI Hyperpod pour Amazon EKS
Cette version inclut les mises à jour suivantes :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 7 novembre 2025
Mises à jour générales de l’AMI
-
Publication de mises à jour pour SageMaker HyperPod AMI pour Amazon EKS versions 1.28, 1.29, 1.30, 1.31, 1.32 et 1.33.
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
Cette version inclut les mises à jour suivantes :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 29 octobre 2025
Mises à jour générales de l’AMI
-
Publication de mises à jour pour SageMaker HyperPod AMI pour Amazon EKS versions 1.28, 1.29, 1.30, 1.31, 1.32 et 1.33.
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
Cette version inclut les mises à jour suivantes :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 22 octobre 2025
AL2x86
Note
Amazon Linux 2 est désormais obsolète. L'AMI Kubernetes est basée sur AL2 023.
La note de mise à jour du DLAMI de base est disponible ici.
-
Versions EKS 1.28 à 1.32
-
Cette version contient des correctifs CVE pour les packages de pilotes NVIDIA concernés, disponibles dans le bulletin de sécurité d'octobre de Nvidia
. -
NVIDIA SMI
NVIDIA-SMI 570.195.03 Driver Version: 570.195.03 CUDA Version: 12.8 -
Versions majeures
nom du package version version_cadre 70 gdr_copy 2.4.1 supported_ec2_instances G4dn, G5, G6, G6, G6e, P4d, P4de, P5, P5e, P5en efa_version 1,43,3 type de volume Web gp3 nvidia_driver 570,195,03 python_location /usr/bin/python3,10 nvidia_cuda_stack /usr/local/cuda-12.1,/usr/local/cuda-12.2,/usr/local/cuda-12.3,/usr/local/cuda-12,4 Version de l'agent SSM 3,3,3050,0 version_noyau 5.10.244-240.965.amzn2.x86_64 version de la boîte à outils nvidia_container_toolkit_ 1.17.8 ofi_nccl_version 1.16,3 système_exploitation Amazon Linux 2 cuda par défaut /-12,1/ usr/local/cuda architecture_informatique x86_64 -
Packages ajoutés : aucun package n'a été ajouté dans cette version.
-
Packages mis à jour
nom du package version précédente nouvelle version boto3 1,40,46 1,40,49 botocore 1,40,46 1,40,49 fastapi 0,118,0 0,118,2 verrouillage de fichiers 3.19.1 3,20,0 importlib_metadata 8,7.0 8,0.0 jaraco.context 6.0.1 5.3.0 jaraco.functools 4.3.0 4.0.1 matplotlib 3.10.6 3.10.7 empaquetage 25 24,2 plate-forme dirs 4.4.0 4.5.0 propcache 0,4,0 0,4.1 riche 14.1.0 14.2.0 tomli 2.2.1 2.3.0 types-python-dateutil 2,9.0.20250822 2,9.0.20251008 virtualenv 20,34,0 20,35.1 client WebSocket 1.8.0 1.9.0 -
Packages supprimés : aucun package n'a été supprimé dans cette version.
AL2023x86
La note de mise à jour du DLAMI de base est disponible ici.
-
Versions EKS 1.28 à 1.32. Aucune sortie pour la version 1.33 d'EKS.
-
Cette version contient des correctifs CVE pour les packages de pilotes NVIDIA concernés, disponibles dans le bulletin de sécurité d'octobre de Nvidia
. -
NVIDIA SMI
NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0 -
Versions majeures
nom du package version gdr_copy 2.5.1 supported_ec2_instances G4dn, G5, G6, G6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200 efa_version 1,43,3 type de volume Web gp3 version nvidia_gds 1,15,0,42 nvidia_driver 580,95,05 python_location /usr/bin/python3,9 nvidia_cuda_stack /usr/local/cuda-12.6,/usr/local/cuda-12.8,/usr/local/cuda-12.9,/usr/local/cuda-13,0 Version de l'agent SSM 3,3,3050,0 version_noyau 6,1153-175,280.amzn2023.x86_64 version de la boîte à outils nvidia_container_toolkit_ 1.17.8 dcgm_version 4.4.1 ofi_nccl_version 1.16,3 système_exploitation Amazon Linux 2023.9.20250929 cuda par défaut /usr/local/cuda-12,9/ architecture_informatique x86_64 -
Packages ajoutés : aucun package n'a été ajouté dans cette version.
-
Packages mis à jour
nom du package version précédente nouvelle version boto3 1,40,46 1,40,49 botocore 1,40,46 1,40,49 fastapi 0,118,0 0,118,2 gdrcopy 2,5-1 2.5.1-1 gdrcopy-devel 2,5-1 2.5.1-1 gdrcopy-kmod 2,5 à 1 dkms 2.5.1-1dkms jaraco.context 6.0.1 5.3.0 jaraco.functools 4.3.0 4.0.1 plus d'outils 10,8.0 10.3.0 empaquetage 25 24,2 propcache 0,4,0 0,4.1 pydantique 2,1,10 2.12.0 pydantic_core 2.33.2 2.41.1 riche 14.1.0 14.2.0 types-python-dateutil 2,9.0.20250822 2,9.0.20251008 extensions de saisie 4.12.2 4,15,0 virtualenv 20,34,0 20,35.1 client WebSocket 1.8.0 1.9.0 -
Packages supprimés : aucun package n'a été supprimé dans cette version.
AL2023 ARM64
La note de mise à jour du DLAMI de base est disponible ici.
-
Versions d'EKS 1.31 à 1.33.
-
Cette version contient des correctifs CVE pour les packages de pilotes NVIDIA concernés, disponibles dans le bulletin de sécurité d'octobre de Nvidia
. -
NVIDIA SMI
NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0 -
Versions majeures
nom du package version gdr_copy 2,5 supported_ec2_instances G5G, P6e-00 GB2 efa_version 1,43,3 type de volume Web gp3 nvidia_driver 580,95,05 python_location /usr/bin/python3,9 nvidia_cuda_stack /usr/local/cuda-12.6,/usr/local/cuda-12.8,/usr/local/cuda-12.9,/usr/local/cuda-13,0 Version de l'agent SSM 3,3,3050,0 version_noyau 6.12.46-66.121. amzn2023.aarch64 version de la boîte à outils nvidia_container_toolkit_ 1.17.8 dcgm_version 4.4.1 ofi_nccl_version 1.16,3 système_exploitation Amazon Linux 2023.9.20250929 cuda par défaut /usr/local/cuda-12,9/ architecture_informatique aarch64 -
Packages ajoutés : aucun package n'a été ajouté dans cette version.
-
Packages mis à jour
nom du package version précédente nouvelle version aiohttp 3,12,15 3,13,0 attrs 25,3,0 25,4.0 boto3 1,40,45 1,40,49 botocore 1,40,45 1,40,49 chattes 25,2,0 25,3,0 certifi 2025,8.3 2025,1,5 efa 2.17.2-1. amzn2023 2.17.3-1. amzn2023 fastapi 0,118,0 0,118,2 liste gelée 1.7.0 1.8.0 importlib_metadata 8,7.0 8,0.0 jaraco.context 5.3.0 6.0.1 multidict 6.6.4 6.7.0 narvals 2.6.0 2.7.0 nh3 0.3.0 0,3.1 propcache 0,3.2 0,4.1 pydantique 2,11.9 2.12.0 pydantic_core 2.33.2 2.41.1 pylône 3.3.8 3.3.9 python-json-logger 3.3.0 4.0.0 riche 14.1.0 14.2.0 tomli 2.2.1 2.0.1 types-python-dateutil 2,9.0.20250822 2,9.0.20251008 virtualenv 20,34,0 20,35.1 client WebSocket 1.8.0 1.9.0 yarl 1.20.1 1.22.0 zipp 3.19,2 3,23,0 -
Packages supprimés : aucun package n'a été supprimé dans cette version.
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 29 septembre 2025
Mises à jour générales de l’AMI
-
Sortie de la nouvelle SageMaker HyperPod AMI pour Amazon EKS 1.33. Pour plus d'informations, consultez les versions de l' SageMaker HyperPod AMI pour Amazon EKS datées du 29 septembre 2025.
Important
L'API Kubernetes bêta d'allocation dynamique des ressources est activée par défaut dans cette version.
-
Cette API améliore la planification et la surveillance des charges de travail qui nécessitent des ressources telles que GPUs.
-
Cette API a été développée par la communauté open source Kubernetes et pourrait changer dans les futures versions de Kubernetes. Avant d'utiliser l'API, consultez la documentation de Kubernetes
et comprenez comment elle affecte vos charges de travail.
-
-
HyperPod ne publie pas d'AMI HyperPod Amazon Linux 2 pour Kubernetes 1.33. AWSvous recommande de migrer vers AL2 023. Pour plus d'informations, consultez la section Mise à niveau d'Amazon Linux 2 vers AL2 023.
Pour plus d'informations, consultez Kubernetes
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
Cette version inclut les mises à jour suivantes :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 25 août 2025
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
Cette version inclut les mises à jour suivantes :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 12 août 2025
L'AMI inclut les éléments suivants :
-
AWSService pris en charge : Amazon EC2
-
Système d'exploitation : Amazon Linux 2023
-
Architecture informatique : ARM64
-
La dernière version disponible est installée pour les packages suivants :
-
Noyau Linux : 6.12
-
FSx Lustre
-
Docker
-
AWS CLIv2 à
/usr/bin/aws -
NVIDIA DCGM
-
Boîte à outils pour conteneurs Nvidia :
-
Commande de version :
nvidia-container-cli -V
-
-
NVidia-Docker 2 :
-
Commande de version :
nvidia-docker version
-
-
NVidia-IMEX : v570.172.08-1
-
-
Pilote NVIDIA : 570.158.01
-
Pile NVIDIA CUDA 12,4, 12,5, 12,6, 12,8 :
-
Répertoires d'installation CUDA, NCCL et CudDN :
/usr/local/cuda-xx.x/-
Exemple :
/usr/local/cuda-12.8/,/usr/local/cuda-12.8/
-
-
Version NCCL compilée :
-
Pour le répertoire CUDA de 12.4, compilé la version 2.22.3+ 4 de NCCL CUDA12
-
Pour le répertoire CUDA de 12.5, compilé la version 2.22.3+ .5 de NCCL CUDA12
-
Pour le répertoire CUDA de 12.6, compilé la version NCCL 2.24.3+ .6 CUDA12
-
Pour le répertoire CUDA de 12.8, compilé la version 2.27.5+ de NCCL. CUDA12
-
-
CUDA par défaut : 12,8
-
PATH
/usr/local/cudapointe vers CUDA 12.8 -
Mise à jour des variables d'environnement ci-dessous :
-
LD_LIBRARY_PATHavoir/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATHavoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
Pour toute version différente de CUDA, veuillez la mettre à jour
LD_LIBRARY_PATHen conséquence.
-
-
-
-
Installateur EFA : 1.42.0
-
Nvidia GDRCopy : 2,5.1
-
AWSLe plugin OFI NCCL est fourni avec le programme d'installation EFA
-
Les chemins
/opt/amazon/ofi-nccl/libet/opt/amazon/ofi-nccl/efasont ajoutés àLD_LIBRARY_PATH.
-
-
AWS CLIv2 à
/usr/local/bin/aws -
Type de volume EBS : GP3
-
Python:
/usr/bin/python3.9
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 6 août 2025
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
Ils AMIs incluent les mises à jour suivantes :
Important
-
AMI de pilote Nvidia OSS Deep Learning Base (Amazon Linux 2) version 70.3
-
AMI de pilote Nvidia propriétaire Deep Learning Base (Amazon Linux 2) version 68.4
-
Dernière prise en charge CUDA 12.8
-
Mise à niveau du pilote Nvidia de 570.158.01 à 570.172.08 pour corriger les CVE présents dans le bulletin de sécurité Nvidia de juillet
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 31 juillet 2025
Amazon prend SageMaker HyperPod désormais en charge une nouvelle AMI pour les clusters Amazon EKS qui met à jour le système d'exploitation de base vers Amazon Linux 2023. Cette version apporte plusieurs améliorations par rapport à Amazon Linux 2 (AL2). HyperPod publie AMIs régulièrement de nouvelles versions, et nous vous recommandons d'exécuter tous vos HyperPod clusters sur les versions les plus récentes et les plus sécurisées de AMIs afin de corriger les vulnérabilités et de supprimer progressivement les logiciels et bibliothèques obsolètes.
Mises à niveau clés
-
Système d'exploitation : Amazon Linux 2023 (mis à jour depuis Amazon Linux 2, ou AL2)
-
Gestionnaire de packages : DNF est l'outil de gestion de packages par défaut, remplaçant YUM utilisé dans AL2
-
Service réseau :
systemd-networkdgère les interfaces réseau, en remplacement de l'ISCdhclientutilisé dans AL2 -
Noyau Linux : version 6.1, mise à jour à partir du noyau utilisé dans AL2
-
Glibc : Version 2.34, mise à jour à partir de la version en AL2
-
GCC : Version 11.5.0, mise à jour à partir de la version en AL2
-
NFS : Version 1:2.6 .1, mise à jour à partir de la version 1:1.3 .4 dans AL2
-
Pilote NVIDIA : version 570.172.08, version plus récente du pilote
-
Python : Version 3.9, remplaçant Python 2.7 utilisé dans AL2
-
NVME : version 1.11.1, une version plus récente du pilote NVMe
Avant la mise à niveau
Il y a quelques points importants à connaître avant de procéder à la mise à niveau. Avec AL2 023, plusieurs packages ont été ajoutés, mis à niveau ou supprimés par rapport à AL2. Nous vous recommandons vivement de tester vos applications avec AL2 023 avant de mettre à niveau vos clusters. Pour obtenir une liste complète de toutes les modifications apportées aux packages en AL2 2023, consultez la section Modifications apportées aux packages dans Amazon Linux 2023.
Voici certains des principaux changements intervenus entre AL2 0 AL2 et 2023 :
-
Python 3.10 : la mise à jour la plus importante, hormis le système d’exploitation, est la mise à niveau de la version de Python. Après la mise à niveau, les clusters utilisent Python 3.10 par défaut. Certaines charges de travail d’entraînement distribuées en Python 3.8 peuvent être compatibles avec Python 3.10, mais nous vous recommandons vivement de tester vos charges de travail spécifiques séparément. Si la migration vers Python 3.10 s’avère difficile mais que vous souhaitez tout de même mettre à niveau votre cluster pour d’autres nouvelles fonctionnalités, vous pouvez installer une ancienne version de Python en utilisant la commande
yum install python-xx.xavec des scripts de cycle de vie avant d’exécuter des charges de travail. Assurez-vous de tester la compatibilité de vos scripts de cycle de vie existants et de votre code d’application. -
Mise en œuvre de l'environnement d'exécution NVIDIA : la version AL2 023 applique strictement les exigences d'exécution des conteneurs NVIDIA, ce qui entraîne l'échec des conteneurs contenant des variables d'environnement NVIDIA codées en dur (par exemple
NVIDIA_VISIBLE_DEVICES: "all") sur les nœuds dotés uniquement du processeur (alors que ces paramètres sont AL2 ignorés en l'absence de pilotes GPU). Vous pouvez annuler l’application en définissantNVIDIA_VISIBLE_DEVICES: "void"dans votre spécification de pod ou en utilisant des images de CPU uniquement. -
cgroup v2 : AL2 023 propose la prochaine génération de hiérarchie de groupes de contrôle unifiée (cgroup v2). cgroup v2 est utilisé pour les exécutions de conteneurs et est également utilisé par.
systemdBien que AL2 023 contienne toujours du code permettant au système de fonctionner à l'aide de cgroup v1, cette configuration n'est pas recommandée. -
Amazon VPC CNI et
eksctlversions : AL2 023 nécessite également que la version de votre Amazon VPC CNI soit 1.16.2 ou supérieure et que votre version soit 0.176.0 ou supérieure.eksctl -
EFA on FSx for Lustre : vous pouvez désormais utiliser EFA on FSx for Lustre, qui vous permet d'obtenir des performances applicatives comparables à celles des clusters sur site AI/ML ou HPC (calcul haute performance), tout en bénéficiant de l'évolutivité, de la flexibilité et de l'élasticité du cloud computing.
En outre, la mise à niveau vers la version AL2 023 nécessite au minimum la version 1.0.643.0_1.0.192.0 de Health Monitoring Agent. Suivez la procédure ci-dessous pour mettre à jour l’agent de surveillance de l’état :
-
Si vous utilisez des scripts de HyperPod cycle de vie depuis le GitHub référentiel awsome-distributed-training
, veillez à extraire la dernière version. Les versions antérieures ne sont pas compatibles avec AL2 023. Le nouveau script de cycle de vie garantit qu'il containerdutilise le stockage monté supplémentaire pour extraire les images des conteneurs en AL2 023. -
Insérez la dernière version du référentiel git de la HyperPod CLI
. -
Mettez à jour les dépendances à l’aide de la commande suivante :
helm dependencies update helm_chart/HyperPodHelmChart -
Comme indiqué à l'étape 4 du fichier README de HyperPodHelmChart
, exécutez la commande suivante pour mettre à niveau la version des dépendances exécutées sur le cluster : helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system
Charges de travail testées sur les clusters EKS mis à niveau
Voici quelques cas d’utilisation pour lesquels la mise à niveau a été testée :
-
Rétrocompatibilité : les tâches de formation distribuée les plus courantes impliquant PyTorch devraient être rétrocompatibles sur la nouvelle AMI. Toutefois, étant donné que vos charges de travail peuvent dépendre de bibliothèques Python ou Linux spécifiques, nous vous recommandons de commencer par effectuer des tests à plus petite échelle ou sur un sous-ensemble de nœuds avant de mettre à niveau vos clusters plus importants.
-
Tests d'accélérateurs : des tâches sur différents types d'instances, utilisant à la fois les accélérateurs NVIDIA (pour les familles d'instances P et G) et les accélérateurs AWS Neuron (pour les instances Trn) ont été testées.
Comment mettre à niveau votre AMI et les charges de travail associées
Vous pouvez effectuer la mise à niveau vers la nouvelle AMI à l’aide de l’une des méthodes suivantes :
-
Utilisez l’API create-cluster pour créer un nouveau cluster avec l’AMI la plus récente.
-
Utilisez l'update-cluster-softwareAPI pour mettre à niveau votre cluster existant. Notez que cette option réexécute tous les scripts de cycle de vie.
Le cluster est indisponible au cours du processus de mise à jour. Nous vous recommandons de planifier cette durée d’indisponibilité et de redémarrer la charge de travail d’entraînement à partir d’un point de contrôle existant une fois la mise à niveau terminée. En guise de bonne pratique, nous vous recommandons d’effectuer des tests sur un cluster plus petit avant de mettre à niveau vos clusters de plus grande taille.
Si la commande de mise à jour échoue, commencez par identifier la cause de l’échec. En cas d’échec des scripts de cycle de vie, apportez les corrections nécessaires à vos scripts et réessayez. Pour tout autre problème qui ne peut être résolu, contactez AWS Support
Résolution des problèmes
Utilisez la section suivante pour vous aider à résoudre les problèmes que vous rencontrez lors de la mise à niveau vers la version AL2 023.
Comment corriger des erreurs telles que "nvml error: driver
not loaded: unknown" sur des nœuds de cluster de CPU uniquement ?
Si les conteneurs qui fonctionnaient sur les nœuds du processeur AL2 Amazon EKS échouent désormais le AL2 023, il est possible que des variables d'environnement NVIDIA soient codées en dur sur votre image de conteneur. Vous pouvez vérifier la présence de variables d’environnement codées en dur à l’aide de la commande suivante :
docker inspect image:tag | grep -i nvidia
AL2La version 023 applique strictement ces exigences alors qu' AL2 elle était plus indulgente pour les nœuds utilisant uniquement le processeur. L'une des solutions consiste à annuler l'application AL2 023 en définissant certaines variables d'environnement NVIDIA dans les spécifications de votre pod Amazon EKS, comme illustré dans l'exemple suivant :
yaml containers: - name: your-container image: your-image:tag env: - name: NVIDIA_VISIBLE_DEVICES value: "void" - name: NVIDIA_DRIVER_CAPABILITIES value: ""
Une autre alternative consiste à utiliser des images de conteneur de CPU uniquement (telles que pytorch/pytorch:latest-cpu) ou à générer des images personnalisées sans dépendances NVIDIA.
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 15 juillet 2025
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
Ils AMIs incluent les mises à jour suivantes :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 9 juin 2025
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 22 mai 2025
Mises à jour générales de l’AMI
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 7 mai 2025
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 28 avril 2025
Améliorations pour K8s
-
Mise à niveau du pilote NVIDIA de la version 550.144.03 à la version 550.163.01. Cette mise à niveau vise à remédier aux vulnérabilités et expositions courantes (CVEs) présentes dans le bulletin de sécurité de l'affichage des cartes graphiques NVIDIA d'avril 2025
.
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 18 avril 2025
Mises à jour générales de l’AMI
-
Nouvelle SageMaker HyperPod AMI pour Amazon EKS 1.32.1.
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
AMIs Il s'agit notamment des éléments suivants :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 18 février 2025
Améliorations pour K8s
-
Mise à niveau du kit d’outils pour conteneurs Nvidia de la version 1.17.3 à la version 1.17.4.
-
Correction du problème qui empêchait les clients de se connecter aux nœuds après un redémarrage.
-
Mise à niveau de la version Elastic Fabric Adapter (EFA) de 1.37.0 à 1.38.0.
-
L'EFA inclut désormais le plugin AWS OFI NCCL, qui se trouve dans le
/opt/amazon/ofi-ncclrépertoire au lieu du chemin d'origine/opt/aws-ofi-nccl/. Si vous devez mettre à jour votre variable d’environnementLD_LIBRARY_PATH, assurez-vous de modifier le chemin pour qu’il pointe vers le nouvel emplacement/opt/amazon/ofi-nccldu plug-in OFI NCCL. -
J'ai supprimé le package Emacs de ceux-ci DLAMIs. Vous pouvez installer emacs depuis GNU emac.
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 22 janvier 2025
Mises à jour générales de l’AMI
-
Nouvelle SageMaker HyperPod AMI pour Amazon EKS 1.31.2.
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
AMIs Il s'agit notamment des éléments suivants :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 21 décembre 2024
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
AMIs Il s'agit notamment des éléments suivants :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 13 décembre 2024
SageMaker HyperPod DLAMI pour la mise à niveau d'Amazon EKS
-
Mise à jour de SSM Agent vers la version
3.3.1311.0.
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 24 novembre 2024
Mises à jour générales de l’AMI
-
Publication dans la région
MEL(Melbourne). -
DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :
-
Kubernetes : 2024-11-01.
-
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 15 novembre 2024
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
AMIs Il s'agit notamment des éléments suivants :
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 11 novembre 2024
Mises à jour générales de l’AMI
-
SageMaker HyperPod DLAMI mis à jour avec les versions 1.28.13, 1.29.8, 1.30.4 d'Amazon EKS.
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 21 octobre 2024
Mises à jour générales de l’AMI
-
DLAMI SageMaker HyperPod de base mis à jour vers les versions suivantes :
-
Amazon EKS : 1.28.11, 1.29.6, 1.30.2.
-
SageMaker HyperPod Publications d'AMI pour Amazon EKS : 10 septembre 2024
SageMaker HyperPod Assistance DLAMI pour Amazon EKS
AMIs Il s'agit notamment des éléments suivants :