Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS AMI GPU basée sur le Deep Learning (Ubuntu 20.04)
Avis de rupture de support
Ubuntu Linux 20.04 LTS arrivera à la fin de sa période LTS de cinq ans le 31 mai 2025 et ne sera plus pris en charge par son fournisseur. Par conséquent, l'AMI GPU AWS Deep Learning Base (Ubuntu 20.04) ne sera pas mise à jour après le 31 mai 2025. Les versions précédentes continueront d'être disponibles. Veuillez noter que toute AMI publiée publiquement devient obsolète 2 ans EC2 après sa date de création. Reportez-vous à la section Dépréciation d'une EC2 AMI Amazon pour plus d'informations.
Pendant 3 mois, jusqu'au 31 août 2025, le support sera fourni uniquement pour les problèmes de fonctionnalité (et non pour les correctifs de sécurité).
Les utilisateurs d'Ubuntu 20.04 DLAMI doivent passer AWS à l'AMI GPU Deep Learning Base (Ubuntu 22.04) ou à l'AMI GPU AWS Deep Learning Base
(Ubuntu 24.04 ). L'AMI AWS Deep Learning Base (Amazon Linux 2023) peut également être utilisée.
Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.
Format du nom de l'AMI
AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Ubuntu 20.04) $ {YYYY-MM-DD}
AMI GPU propriétaire Nvidia basée sur le Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}
EC2 Instances prises en charge
Reportez-vous à la section Modifications importantes apportées au DLAMI.
Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn
L'AMI inclut les éléments suivants :
AWS Service pris en charge : Amazon EC2
Système d'exploitation : Ubuntu 20.04
Architecture de calcul : x86
La dernière version disponible est installée pour les packages suivants :
Noyau Linux 5.15
FSx Lustre
Docker
AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws
NVIDIA DCGM
Boîte à outils pour conteneurs Nvidia :
Commande de version : nvidia-container-cli -V
NVidia-Docker 2 :
Commande de version : nvidia-docker version
Pilote NVIDIA :
Pilote OSS Nvidia : 550.163.01
Pilote Nvidia propriétaire : 550.163.01
Stack NVIDIA CUDA 11.7, 12.1-12.4 :
Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
Exemple :/usr/local/cuda-12.1/
Version NCCL compilée : 2.22.3+ 2.4 CUDA12
CUDA par défaut : 12.1
PATH/usr/local/cudapointe vers CUDA 12.1
Mise à jour des variables d'environnement ci-dessous :
LD_LIBRARY_PATH à avoir/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
CHEMIN à avoir/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Lieu des tests du NCCL :
all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Pour exécuter des tests NCCL, LD_LIBRARY_PATH doit réussir avec les mises à jour ci-dessous.
PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Installateur EFA : 1.39.0
Nvidia GDRCopy : 2,4
AWS Plugin OFI NCCL : installé dans le cadre du programme d'installation EFA AWS
AWS OFI NCCL prend désormais en charge plusieurs versions NCCL avec une seule version
Le chemin d'installation :/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libest ajouté à LD_LIBRARY_PATH.
Teste le chemin de la sonnerie, message_transfer :/opt/aws-ofi-nccl/tests
Type de volume EBS : GP3
Python :/ usr/bin/python 3.9
NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme
Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :
Pilote OSS Nvidia :
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textPilote Nvidia propriétaire :
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :
Pilote OSS Nvidia :
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textPilote Nvidia propriétaire :
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avis
Boîte à outils NVIDIA Container 1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Mises à jour EFA de 1.37 à 1.38 (sortie le 04/02/2025)
EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.
Politique de support
Les composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning
EC2 instances avec plusieurs cartes réseau
De nombreux types d’instances compatibles avec EFA possèdent également plusieurs cartes réseau.
DeviceIndex est unique à chaque carte réseau et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1.
Pour l'interface réseau principale (index de carte réseau 0, indice de périphérique 0), créez une interface EFA (EFA avec ENA). Vous ne pouvez pas utiliser une interface réseau uniquement EFA comme interface réseau principale.
Pour chaque interface réseau supplémentaire, utilisez le prochain index de carte réseau inutilisé, l'index de périphérique 1, et une interface réseau EFA (EFA avec ENA) ou EFA uniquement, selon votre cas d'utilisation, comme les exigences en bande passante ENA ou l'espace d'adressage IP. Pour des exemples de cas d'utilisation, consultez la section Configuration EFA pour une instance P5.
Pour plus d'informations, consultez le guide EFA ici.
Instances P5/P5e
Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en
Le P5en contient 16 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
La version du noyau est épinglée à l'aide de la commande :
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsNous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsPour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.
Date de sortie : 2025-04-24
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250424
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250424
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.144.03 à la version 550.163.01 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA
d'avril 2025
Date de sortie : 2025-02-17
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250214
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250214
Mis à jour
Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Supprimé
Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit
d'outils NVIDIA CUDA du 18 février 2025
Date de sortie : 2025-02-04
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250204
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250204
Mis à jour
Version EFA mise à niveau de 1.37.0 à 1.38.0
EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.
Supprimé
Le package Emacs en a été supprimé. DLAMIs Les clients peuvent installer Emacs depuis GNU Emacs. https://www.gnu.org/software/emacs/download.html
Date de sortie : 2025-01-17
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250117
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250117
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025
Date de sortie : 2024-12-09
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20241206
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20241206
Mis à jour
Mise à niveau de Nvidia Container Toolkit de la version 1.17.0 à la version 1.17.3
Date de sortie : 2024-11-22
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122
Ajouté
Ajout du support pour les instances P5en. EC2
Mis à jour
Mise à niveau du programme d'installation d'EFA de la version 1.35.0 à la version 1.37.0
Mise à niveau du plugin AWS OFI NCCL de la version 1.12.1-aws à la version 1.13.0-aws
Date de sortie : 2024-10-26
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20241025
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20241025
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA
d'octobre 2024
Date de sortie : 2024-10-03
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927
Mis à jour
Mise à niveau de Nvidia Container Toolkit de la version 1.16.1 à la version 1.16.2
Date de sortie : 2024-08-27
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827
Mis à jour
Mise à niveau du pilote Nvidia et du Fabric Manager de la version 535.183.01 à la version 550.90.07
Version EFA mise à niveau de la version 1.32.0 à la version 1.34.0
Mise à niveau de NCCL vers la dernière version 2.22.3 pour toutes les versions de CUDA
CUDA 11.7 a été mis à niveau depuis la version 2.16.2+ 7. CUDA11
CUDA 12.1, 12.2 mis à jour à partir de 2.18.5+ 2 CUDA12
CUDA 12.3 mis à jour depuis la version 2.21.5+ 4 CUDA12
Ajouté
Ajout de la version 12.4 du kit d'outils CUDA dans le répertoire/-12.4 usr/local/cuda
Ajout du support pour l' EC2 instance P5e.
Supprimé
Suppression de la pile de la version 11.8 du kit d'outils CUDA présente dans le répertoire/-11.8 usr/local/cuda
Date de sortie : 2024-08-19
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816
Ajouté
Ajout du support pour l' EC2 instance G6e
.
Date de sortie : 2024-06-06
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240606
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240606
Mis à jour
Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08
Date de sortie : 2024-05-15
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240515
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240515
Ajouté
Ajout d'une pile CUDA11 .7 dans le répertoire//usr/local/cuda-11.7 avec CUDA11 .7, NCCL 2.16.2, cuDNN 8.7.0 car 1.13 supporte .7 PyTorch CUDA11
Date de sortie : 2024-05-02
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240502
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240502
Mis à jour
Version EFA mise à jour de la version 1.30 à la version 1.32
Plugin AWS OFI NCCL mis à jour de la version 1.7.4 à la version 1.9.1
Boîte à outils de conteneurs Nvidia mise à jour de la version 1.13.5 à la version 1.15.0
La version 1.15.0 n'inclut PAS les packages nvidia-docker2 nvidia-container-runtime et nvidia-docker2. Il est recommandé d'utiliser les nvidia-container-toolkit packages directement en suivant la documentation du Nvidia Container Toolkit
.
Ajouté
Ajout d'une pile CUDA12 .3 avec CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7
Supprimé
Suppression des piles CUDA11 .7, CUDA12 .0 présentes dans les répertoires//-12.0 usr/local/cuda-11.7 and /usr/local/cuda
Date de sortie : 2024-04-04
Noms des AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404
Ajouté
Pour le pilote OSS Nvidia DLAMIs, ajout du support des EC2 instances G6 et Gr6. Reportez-vous à la section Instances de GPU recommandées pour plus d'informations.
Date de sortie : 2024-03-29
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240326
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240326
Mis à jour
Mise à jour du pilote Nvidia de 535.104.12 à 535.161.08 dans le pilote Nvidia propriétaire et OSS. DLAMIs
Suppression de la prise en charge des EC2 instances G4dn et G5 par le pilote propriétaire Nvidia DLAMI.
Les nouvelles instances prises en charge pour chaque DLAMI sont les suivantes :
Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn
Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, P4d, P4de, P5.
Date de sortie : 2024-03-20
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240318
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240318
Ajouté
Ajouté
awscliv2dans l'AMI à/usr/local/bin/aws2, à côtéawscliv1de/usr/bin/awson Proprietary et OSS Nvidia Driver AMI
Date de sortie : 2024-03-14
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314
Mis à jour
Pilote OSS Nvidia DLAMI mis à jour avec support G4dn et G5. Sur cette base, le support actuel ressemble à ce qui suit :
L'AMI du pilote Nvidia propriétaire de Deep Learning Base (Ubuntu 20.04) prend en charge les formats P3, P3dn, G3, G5 et G4dn.
L'AMI du pilote Nvidia Deep Learning Base OSS (Ubuntu 20.04) prend en charge les formats G5, G4dn, P4 et P5.
Il est recommandé d'utiliser le pilote DLAMIs OSS Nvidia pour G5, G4dn, P4, P5.
Date de sortie : 2024-02-12
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240208
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240208
Mis à jour
AWS Le plugin OFI NCCL est mis à jour de 1.7.3 à 1.7.4
Date de sortie : 2024-02-01
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240201
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240201
Sécurité
Date de sortie : 2023-12-04
Noms des AMI
Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20231204
AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20231204
Ajouté
AWS L'AMI d'apprentissage profond (DLAMI) est divisée en deux groupes distincts :
DLAMI utilisant le pilote propriétaire Nvidia (compatible avec P3, P3dn, G3, G5, G4dn).
DLAMI qui utilise le pilote Nvidia OSS pour activer EFA (compatible avec P4, P5).
Reportez-vous à la section Modifications importantes apportées au DLAMI pour plus d'informations sur le fractionnement du DLAMI.
AWS CLI les requêtes ci-dessus se trouvent sous forme de bullet point Query AMI-ID avec AWSCLI (par exemple, la région est us-east-1)
Mis à jour
EFA mis à jour de 1.26.1 à 1.29.0
GDRCopy mis à jour de 2.3 à 2.4
Date de sortie : 2023-10-18
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20231018
Mis à jour
AWS Plugin OFI NCCL mis à jour de la version 1.7.2 à la version 1.7.3
Répertoires CUDA 12.0-12.1 mis à jour avec la version 2.18.5 de NCCL pour correspondre à CUDA 12.2
CUDA12.1 mise à jour en tant que version CUDA par défaut
LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Pour les clients qui souhaitent passer à une autre version de CUDA, veuillez définir les variables LD_LIBRARY_PATH et PATH en conséquence.
Date de sortie : 2023-10-02
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20231002
Mis à jour
Mise à jour du pilote NVIDIA de 535.54.03 à 535.104.12
Ce dernier pilote corrige les modifications majeures de l'ABI NVML trouvées dans la version 535.54.03 du pilote, ainsi que la régression du pilote trouvée dans la version 535.86.10 qui affectait les boîtes à outils CUDA sur les instances P5. Consultez les notes de mise à jour suivantes de NVIDIA pour plus de détails sur les correctifs :
Consultez les notes de mise à jour suivantes de NVIDIA pour plus de détails sur les correctifs :
Répertoires CUDA 12.2 mis à jour avec NCCL 2.18.5
EFA mis à jour de la version 1.24.1 à la dernière version 1.26.1
Ajouté
Ajouté CUDA12 2.2 à/usr/local/cuda-12.2
Supprimé
Suppression du support pour CUDA 11.5 et CUDA 11.6
Date de sortie : 2023-09-26
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230926
Ajouté
Ajout de modifications au schéma net.naming-scheme pour corriger le problème imprévisible de dénomination de l'interface réseau (lien
) observé sur P5. Cette modification est effectuée en définissant net.naming-scheme=v247 dans les arguments de démarrage de Linux dans le fichier/etc/default/grub
Date de sortie : 2023-08-30
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230830
Mis à jour
aws-ofi-ncclPlugin mis à jour de la v1.7.1 à la v1.7.2
Date de sortie : 2023-08-11
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230811
Ajouté
Cette AMI prend désormais en charge les fonctionnalités d'entraînement à nœuds multiples sur P5 et sur toutes les instances précédemment EC2 prises en charge.
Pour les EC2 instances P5, il est recommandé d'utiliser NCCL 2.18 et a été ajouté à CUDA12 .0 et .1. CUDA12
Supprimé
Suppression du support pour les CUDA11 versions 1.3 et CUDA11 4.4.
Date de sortie : 2023-08-04
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230804
Mis à jour
Plugin AWS OFI NCCL mis à jour vers la version v1.7.1
Fabriqué en CUDA11 .8 par défaut car PyTorch 2.0 supporte 11.8 et pour les EC2 instances P5, il est recommandé d'utiliser >= .8 CUDA11
LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Pour toute version différente de cuda, veuillez définir LD_LIBRARY_PATH en conséquence.
Répertoires CUDA 12.0 et 12.1 mis à jour avec NCCL 2.18.3
Fixe
Correction du problème de chargement du package Nvidia Fabric Manager (FM) mentionné lors de la date de sortie antérieure du 19/07/2023.
Date de sortie : 2023-07-19
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230719
Mis à jour
EFA mis à jour de 1.22.1 à 1.24.1
Le pilote Nvidia a été mis à jour de 525.85.12 à 535.54.03
Ajouté
Ajout de modifications de l'état C pour désactiver l'état inactif du processeur en réglant l'état C maximal sur C1. Cette modification est effectuée en définissant `intel_idle.max_cstate=1 processor.max_cstate=1` dans les arguments de démarrage de Linux dans le fichier/etc/default/grub
AWS EC2 Support des instances P5 :
Ajout de la prise en charge des EC2 instances P5 pour les flux de travail utilisant un seul nœud ou une seule instance. La prise en charge de plusieurs nœuds (par exemple pour l'entraînement multi-nœuds) à l'aide d'EFA (Elastic Fabric Adapter) et du plug-in AWS OFI NCCL sera ajoutée dans une prochaine version.
Veuillez utiliser CUDA>=11.8 pour des performances optimales.
Problème connu : le chargement du package Nvidia Fabric Manager (FM) prend du temps sur P5. Les clients doivent attendre 2 à 3 minutes avant le chargement de la FM après le lancement de l'instance P5. Pour vérifier si FM est démarré, exécutez la commande sudo systemctl is-active nvidia-fabricmanager, elle devrait redevenir active avant de démarrer un flux de travail. Cela sera amélioré dans la prochaine version.
Date de sortie : 2023-05-19
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230519
Mis à jour
EFA mis à jour vers la dernière version 1.22.1
Version NCCL mise à jour pour CUDA 12.1 à 2.17.1
Ajouté
Ajouté CUDA12 .1 à/usr/local/cuda-12.1
Ajout de la prise en charge du moniteur GPU NVIDIA Data Center (DCGM)
via le package datacenter-gpu-manager Vous pouvez vérifier l'état de ce service à l'aide de la requête suivante : sudo systemctl status nvidia-dcgm
Les magasins d' NVMe instances éphémères sont désormais automatiquement montés sur les EC2 instances prises en charge et le stockage est accessible dans le dossier//. opt/dlami/nvme Vous pouvez vérifier ou modifier ce service de la manière suivante :
Vérifiez l'état du NVMe service : sudo systemctl status dlami-nvme
Pour accéder au service ou le modifier :/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe volumes fournissait les solutions de stockage les plus rapides et les plus efficaces pour les flux de travail à haut débit nécessitant des performances d'IOPS. Les magasins d' NVMe instances éphémères sont inclus dans le coût des instances. Ce service n'entraîne donc aucun coût supplémentaire.
NVMe les magasins d'instances ne seront montés que sur les EC2 instances qui les prennent en charge. Pour plus d'informations sur les EC2 instances dont les magasins d'instances sont NVMe pris en charge, consultez la section Volumes de stockage d'instance disponibles et validez que ceux-ci NVMe sont pris en charge.
Pour améliorer les performances du disque et réduire les pénalités liées à la première écriture, vous pouvez initialiser les magasins d'instances (attention, ce processus peut prendre des heures selon le type d' EC2 instance). Initialisez les volumes de stockage d'instance sur les instances EC2
REMARQUE : les magasins d' NVMe instance sont montés sur l'instance et ne sont pas connectés au réseau comme EBS. Les données de ces NVMe volumes peuvent être perdues lors du redémarrage ou de l'arrêt de votre instance.
Date de sortie : 2023-04-17
Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230414
Mis à jour
Nom DLAMI mis à jour AWS de Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} vers l'AMI GPU Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}
Veuillez noter que nous prendrons en charge le dernier DLAMI portant l'ancien nom d'AMI pendant un mois à compter de cette version pour toute assistance nécessaire. Les clients peuvent mettre à jour leurs packages de système d'exploitation apt-get update & apt-get upgrade pour utiliser les correctifs de sécurité.
Chemin du plugin AWS OFI NCCL mis à jour depuis/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws
Mise à jour de NCCL vers une branche GIT personnalisée
de la version 2.16.2, co-écrite par AWS une équipe du NCCL pour toutes les versions de CUDA. Il fonctionne mieux sur AWS l'infrastructure.
Ajouté
Ajouté CUDA12 .0 à/usr/local/cuda-12.0
Ajout de AWS FSx
. Ajout du support pour la version 3.9 de Python dans/usr/bin/python3.9
Notez que cette modification ne remplace pas le système Python par défaut, python3 pointera toujours le système Python3.8.
Python3.9 est accessible à l'aide des commandes suivantes :
/usr/bin/python3.9 python3.9
Supprimé
Date de sortie : 05.05-25
Nom de l'AMI : AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
Mis à jour
Cette version ajoute le support pour la nouvelle EC2 instance p4de.24xlarge.
Mise à jour aws-efa-installer vers version 1.15.2
Mise à jour aws-ofi-nccl vers la version 1.3.0-aws qui inclut la topologie pour p4de.24xlarge.
Date de sortie : 03-03-25
Nom de l'AMI : AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
Mis à jour
Version EFA mise à jour de 1.15.0 à 1.15.1
Date de sortie : 03-03-17
Nom de l'AMI : AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
Ajouté
Première publication