Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS AMI d'apprentissage profond (Amazon Linux 2)
Astuce
Les clients utilisant un framework unique comme PyTorch ou TensorFlow sont encouragés à utiliser le framework unique DLAMIs mentionné ici
Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.
Format du nom de l'AMI
Version $ {XX.X} du pilote Nvidia propriétaire pour le Deep Learning (Amazon Linux 2)
Version $ {XX.X} du pilote Nvidia pour le Deep Learning OSS (Amazon Linux 2)
EC2 Instances prises en charge
Reportez-vous à la section Modifications importantes apportées au DLAMI.
Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5
Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn
L'AMI inclut les éléments suivants :
AWS Service pris en charge : Amazon EC2
Système d'exploitation : Amazon Linux 2
Architecture de calcul : x86
Framework d'environnements Conda et versions python :
AMI du pilote Nvidia pour le Deep Learning OSS (Amazon Linux 2) :
python3 : Python 3.10
tensorflow2_p310 : 2,16, Python 3,10 TensorFlow
pytorch_p310 : 2,2, Python 3,10 PyTorch
AMI de pilote Nvidia propriétaire pour le Deep Learning (Amazon Linux 2) :
python3 : Python 3.10
tensorflow2_p310 : 2,16, Python 3,10 TensorFlow
pytorch_p310 : 2,2, Python 3,10 PyTorch
Pilote NVIDIA :
Pilote OSS Nvidia : 550.163.01
Pilote Nvidia propriétaire : 550.163.01
Stack NVIDIA CUDA12 1.1-12.4 :
Chemin d'installation de CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
-
CUDA par défaut : 12.1
PATH//usr/local/cudapointe vers CUDA12 1.
Mise à jour des variables d'environnement ci-dessous :
LD_LIBRARY_PATH à avoir/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
CHEMIN à avoir/usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Version NCCL compilée pour CUDA 12.1-12.4 : 2.22.3
Lieu des tests du NCCL :
all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Pour exécuter les tests NCCL, LD_LIBRARY_PATH doit réussir avec les mises à jour ci-dessous.
PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Installateur EFA : 1.38.0
GDRCopy: 2,4
AWS NFC OFI : 1.13.2
Emplacement du système :/usr/local/cuda-xx.x/efa
Ceci est ajouté pour exécuter les tests NCCL situés à l'adresse/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
De plus, le PyTorch package est également livré avec un plugin AWS OFI NCCL lié dynamiquement en tant que aws-ofi-nccl-dlc package conda et PyTorch utilisera ce package au lieu du système AWS OFI NCCL.
Emplacement des tests NCCL :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/local/bin/aws
Type de volume EBS : GP3
Requête AMI-ID avec le paramètre SSM (exemple de région : us-east-1) :
Pilote OSS Nvidia :
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
Pilote Nvidia propriétaire :
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
Requête AMI-ID avec AWSCLI (exemple de région : us-east-1) :
Pilote OSS Nvidia :
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Pilote Nvidia propriétaire :
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Avis
Mises à jour EFA de 1.37 à 1.38 (sortie le 05/02/2025)
-
EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.
Suppression de l'environnement Neuron Conda
-
Le pilote Nvidia propriétaire pour le Deep Learning AMIs publié après le 18 juillet 2024 sera expédié sans les environnements Neuron Conda pour PyTorch et. TensorFlow Veuillez plutôt utiliser le Neuron DLAMIs on the DLAMI Release Notes pour utiliser les environnements neuronaux.
Suppression du package d'audit
-
Les DLAMI publiés entre le 26 mars 2024 (2024-03-26) et le 12 avril 2024 (2024-04-12) ont été expédiés sans le package d'audit. Si vous avez besoin de ce package spécifique pour vos besoins de journalisation et de surveillance, veuillez migrer vos flux de travail vers le DLAMI le plus récent afin de les utiliser avec le package d'audit installé.
Horovod
-
Horovod est supprimé des environnements conda pytorch_p310 et tensorflow2_p310 actuels sur le DLAMI. Les clients pourront installer les bibliothèques Horovod en suivant les directives Horovod
et les installer sur leurs bibliothèques DLAMIs pour leurs tâches de formation distribuées.
Date de sortie : 2025-04-22
Noms des AMI
Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 81.2
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 81.2
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.144.03 à la version 550.163.01 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA
d'avril 2025
Date de sortie : 2025-02-17
Noms des AMI
Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.6
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 80.4
Mis à jour
-
Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, assurez-vous de mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel « Si vous utilisez une couche de compatibilité CUDA » ici - -gpu-drivers.html# https://docs.aws.amazon.com/sagemaker/ latest/dg/inference collapsible-cuda-compat
Supprimé
Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit
d'outils NVIDIA CUDA du 18 février 2025
Date de sortie : 2025-02-05
Noms des AMI
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 80.2
Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.4
Mis à jour
-
Version EFA mise à niveau de 1.37.0 à 1.38.0
EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.
Date de sortie : 2025-01-15
Noms des AMI
Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.3
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 80.1
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025
Date de sortie : 2024-12-09
Noms des AMI
Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.1
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.9
Mis à jour
Mise à niveau de Nvidia Container Toolkit de la version 1.17.0 à la version 1.17.3
Date de sortie : 2024-11-11
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 79.9
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.7
Mis à jour
Date de sortie : 2024-10-22
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 79.6
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.6
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA
d'octobre 2024
Date de sortie : 2024-10-03
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 79.3
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.3
Mis à jour
Date de sortie : 2024-07-18
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 78.6
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.7
Mis à jour
Suppression des environnements conda aws_neuron_pytorch_p38 et aws_neuron_tensorflow_p38 de l'AMI du pilote Nvidia propriétaire pour le Deep Learning.
Suppression de la prise en charge de la famille d'instances Inf1 de l'AMI du pilote Nvidia propriétaire pour le Deep Learning.
Date de sortie : 2024-06-06
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 78.5
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.5
Mis à jour
Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08
Date de sortie : 2024-05-17
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 78.1
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.1
Mis à jour
Torchserve
mis à jour de v0.8.2 à v0.11.0 dans l'environnement pytorch_p310 .
Date de sortie : 2024-05-07
Noms des AMI
Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 78.0
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.0
Mis à jour
TensorFlow version mise à jour de 2.15 à 2.16 dans l'environnement tensorflow2_p310.
Version EFA mise à jour de la version 1.30 à la version 1.32
Plugin AWS OFI NCCL mis à jour de la version 1.7.4 à la version 1.9.1
-
Boîte à outils de conteneurs Nvidia mise à jour de la version 1.13.5 à la version 1.15.0
REMARQUE : La version 1.15.0 n'inclut PAS les packages nvidia-docker2 nvidia-container-runtime et nvidia-docker2. Il est recommandé d'utiliser les nvidia-container-toolkit packages directement en suivant la documentation du Nvidia Container Toolkit
.
Ajouté
Ajout d'une pile CUDA12 .3 avec CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7
Supprimé
Suppression des piles de CUDA11 0,7, CUDA12 ,0 présentes à +/- 12,0 usr/local/cuda-11.7 and /usr/local/cuda
Date de sortie : 2024-04-04
Noms des AMI
Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 77.0
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 77.0
Mis à jour
PyTorch version mise à jour de 2.1 à 2.2 dans l'environnement pytorch_p310.
Pour le pilote OSS Nvidia DLAMIs, ajout du support des EC2 instances G6 et Gr6. Reportez-vous à la page de sélection des EC2 instances pour plus d'informations.
Date de sortie : 2024-03-29
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 76.8
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 76.9
Mis à jour
Mise à jour du pilote Nvidia de 535.104.12 à 535.161.08 dans le pilote Nvidia propriétaire et OSS. DLAMIs
-
Les nouvelles instances prises en charge pour chaque DLAMI sont les suivantes :
Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn, Inf1
Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, P4d, P4de.
Supprimé
Suppression de la prise en charge des EC2 instances G4dn, G5, G3.16x par le pilote propriétaire Nvidia DLAMI.
La version 76.8
Date de sortie : 2024-03-20
Noms des AMI
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 76.8
Ajouté
Ajout d'awscliv2 dans l'AMI en tant que//usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awssur l'AMI propriétaire du pilote Nvidia
La version 76.7
Date de sortie : 2024-03-20
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2), version 76.7
Ajouté
Ajout de awscliv2 dans l'AMI en tant que/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awssur l'AMI du pilote OSS Nvidia
-
Pilote OSS Nvidia DLAMI mis à jour avec support G4dn et G5. Sur cette base, le support actuel ressemble à ce qui suit :
L'AMI de pilote Nvidia propriétaire de Deep Learning Base (Amazon Linux 2) prend en charge les formats P3, P3dn, G3, G5 et G4dn.
L'AMI du pilote Nvidia Deep Learning Base OSS (Amazon Linux 2) est compatible avec G4dn, G5, P4, P5.
Il est recommandé d'utiliser le pilote DLAMIs OSS Nvidia pour G4dn, G5, P4, P5.
La version 76.3
Date de sortie : 2024-02-14
Mis à jour
Mis à jour TensorFlow de la version 2.13.0 à la version 2.15.0
EFA mis à jour de 1.29.0 à 1.30.0
Mise à jour de AWS-OFI-NCCL de 1.7.3-aws à 1.7.4-aws
Mise à jour du pilote Nvidia vers la version 535.104.12 sur l'AMI de pilote Nvidia propriétaire basée sur le Deep Learning
Mise à jour du pilote Nvidia vers 535.154.05 sur Deep Learning OSS Nvidia Driver AMI
La version 76.2
Date de sortie : 2024-02-02
Noms des AMI
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 76.2
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2), version 76.4
Sécurité
La version 76.1
Date de sortie : 2023-12-27
Mis à jour
Mise à jour PyTorch de 2.0.1 à 2.1.0
La version 75.1
Date de sortie : 2023-11-17
Reportez-vous à la section Modifications importantes apportées au DLAMI
Noms des AMI
Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 75.1
Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 75.1
Ajouté
-
AWS L'AMI d'apprentissage profond (DLAMI) est divisée en deux groupes distincts :
DLAMI utilisant le pilote propriétaire Nvidia (compatible avec P3, P3dn, G3, G5, G4dn).
DLAMI qui utilise le pilote Nvidia OSS pour activer EFA (pour prendre en charge les formats P4, P5).
Veuillez vous référer à l'annonce publique pour plus d'informations sur la division du DLAMI.
AWS les requêtes cli ci-dessus se trouvent dans les notes de publication
sous bullet point Query AMI-ID with AWSCLI (exemple, la région est us-east-1)
Mis à jour
EFA mis à jour de 1.26.1 à 1.29.0
GDRCopy mis à jour de 2.3 à 2.4
La version 74.4
Date de sortie : 2023-10-27
Mis à jour
AWS Plugin OFI NCCL mis à jour de la version 1.7.2 à la version 1.7.3
Répertoires CUDA 12.0-12.1 mis à jour avec la version 2.18.5 de NCCL
-
CUDA12.1 mise à jour en tant que version CUDA par défaut
LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Pour les clients qui souhaitent passer à une autre version de CUDA, veuillez définir les variables LD_LIBRARY_PATH et PATH en conséquence.
Pillow mis à jour de la version 9.4.0 à la version 10.1.0 pour corriger SNYK-PYTHON-PILLOW-5918878
dans tous les environnements Conda
Ajouté
-
Kernel Live Patching est désormais activé. Les correctifs en temps réel permettent aux clients d'appliquer des correctifs de failles de sécurité et de bogues critiques à un noyau Linux en cours d'exécution, sans redémarrage ni interruption de l'exécution des applications.
Veuillez noter que la prise en charge des correctifs en direct pour le noyau 5.10.192 prendra fin le 30 novembre 23.
Pour plus d'informations, veuillez consulter les AWS documents officiels ici - https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/al2-live-patching.html
La version 74.0
Date de sortie : 2023-07-19
Mis à jour
-
Mis à jour TensorFlow de la version 2.12 à la version 2.13
Horovod a été supprimé de l'environnement conda dans cette version. Voir la notice pour plus de détails sur l'installation d'horovod.
La version 73.1
Date de sortie : 2023-06-12
Mis à jour
Mise à jour PyTorch de la version 2.0.0 à la version 2.0.1