Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS AMI GPU basée sur le Deep Learning (Ubuntu 22.04)
Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.
Format du nom de l'AMI
AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Ubuntu 22.04) $ {YYYY-MM-DD}
EC2 Instances prises en charge
Reportez-vous à la section Modifications importantes apportées au DLAMI.
Apprentissage profond avec OSS Le pilote Nvidia prend en charge les modèles G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.
L'AMI inclut les éléments suivants :
AWS Service pris en charge : Amazon EC2
Système d'exploitation : Ubuntu 22.04
Architecture de calcul : x86
La dernière version disponible est installée pour les packages suivants :
Noyau Linux : 6. 8
FSx Lustre
Docker
AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws
NVIDIA DCGM
Boîte à outils pour conteneurs Nvidia :
Commande de version : nvidia-container-cli -V
NVidia-Docker 2 :
Commande de version : nvidia-docker version
Pilote NVIDIA : 570.133.20
Stack NVIDIA CUDA 12.4-12.6 et 12.8 :
Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Version NCCL compilée : 2.26.5
CUDA par défaut : 12,8
PATH//usr/local/cudapointe vers CUDA 12.8
Mise à jour des variables d'environnement ci-dessous :
LD_LIBRARY_PATH doit avoir/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib
CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Installateur EFA : 1.40.0
Nvidia GDRCopy : 2,5
AWS NCCL OFI : 1.14.2-aws
Le chemin d'installation :/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libest ajouté à LD_LIBRARY_PATH.
AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws
Type de volume EBS : GP3
Python :/ usr/bin/python 3.10
NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme
Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :
Pilote OSS Nvidia :
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :
Pilote OSS Nvidia :
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avis
Boîte à outils NVIDIA Container 1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Mises à jour de l'EFA de 1.37 à 1.38 (sortie le 31/01/2020)
EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.
Support multi-ENI
Ubuntu 22.04 installe et configure automatiquement le routage des sources sur plusieurs à NICss l'aide de cloud-init lors de son démarrage initial. Si votre flux de travail inclut attaching/detaching le vôtre ENIs lorsqu'une instance est arrêtée, une configuration supplémentaire doit être ajoutée aux données utilisateur de cloud-init afin de garantir une configuration correcte des cartes réseau lors de ces événements. Un exemple de configuration du cloud est fourni ci-dessous.
Veuillez consulter cette documentation canonique ici pour plus d'informations sur la façon de configurer la configuration cloud pour vos instances - https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automatically-/setup-multiple-nics
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
Politique de support
Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning
EC2 instances avec plusieurs cartes réseau
De nombreux types d’instances compatibles avec EFA possèdent également plusieurs cartes réseau.
DeviceIndex est unique à chaque carte réseau et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1.
Pour l'interface réseau principale (index de carte réseau 0, indice de périphérique 0), créez une interface EFA (EFA avec ENA). Vous ne pouvez pas utiliser une interface réseau uniquement EFA comme interface réseau principale.
Pour chaque interface réseau supplémentaire, utilisez le prochain index de carte réseau inutilisé, l'index de périphérique 1, et une interface réseau EFA (EFA avec ENA) ou EFA uniquement, selon votre cas d'utilisation, comme les exigences en bande passante ENA ou l'espace d'adressage IP. Pour des exemples de cas d'utilisation, consultez la section Configuration EFA pour une instance P5.
Pour plus d'informations, consultez le guide EFA ici.
Instances P6-B200
Le P6-B200 contient 8 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en
Le P5en contient 16 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5/P5e
Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
La version du noyau est épinglée à l'aide de la commande :
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer une mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.
Date de sortie : 2025-05-16
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516
Ajouté
Ajout du support pour les instances P6-B200 EC2
Mis à jour
Mise à niveau du programme d'installation d'EFA de la version 1.39.0 à la version 1.40.0
Mise à niveau du plugin AWS OFI NCCL de la version 1.13.0-aws à la version 1.14.2-aws
Version NCCL compilée mise à jour de la version 2.22.3 à 2.26.5
Version CUDA par défaut mise à jour de la version 12.6 à 12.8
Version Nvidia DCGM mise à jour de 3.3.9 à 4.4.3
Date de sortie : 2025-05-05
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Mis à jour
Mise à niveau GDRCopy de la version 2.4.1 à la version 2.5.1
Date de sortie : 2025-04-24
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424
Mis à jour
Mise à niveau du pilote Nvidia de la version 570.124.06 à la version 570.133.20 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA
d'avril 2025
Date de sortie : 2025-02-17
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214
Mis à jour
Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Supprimé
Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit
d'outils NVIDIA CUDA du 18 février 2025
Date de sortie : 2025-02-07
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205
Ajouté
Ajout de la version 12.6 du kit d'outils CUDA dans le répertoire/-12.6 usr/local/cuda
Supprimé
Les versions 12.1 et 12.2 de CUDA ont été supprimées de ce DLAMI. Les clients peuvent installer ces versions depuis NVIDIA en utilisant le lien ci-dessous
Date de sortie : 2025-01-31
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131
Mis à jour
Version EFA mise à niveau de 1.37.0 à 1.38.0
EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.
Mise à niveau de Nvidia Container Toolkit de la version 1.17.3 à la version 1.17.4
Date de sortie : 2025-01-17
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025
Date de sortie : 2024-11-18
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115
Ajouté
Ajout FSx du package Amazon pour le support Lustre.
Fixe
-
En raison d'une modification apportée au noyau Ubuntu pour corriger un défaut de la fonctionnalité KASLR (Kernel Address Space Layout Randomization), les instances G4Dn/G5 ne sont pas en mesure d'initialiser correctement CUDA sur le pilote OSS Nvidia. Afin d'atténuer ce problème, ce DLAMI inclut une fonctionnalité qui charge dynamiquement le pilote propriétaire pour les instances G4Dn et G5. Veuillez prévoir une brève période d'initialisation pour ce chargement afin de garantir le bon fonctionnement de vos instances.
Pour vérifier l'état et l'état de santé de ce service, vous pouvez utiliser la commande suivante :
sudo systemctl is-active dynamic_driver_load.service
active
Date de sortie : 2024-10-23
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA
d'octobre 2024
Date de sortie : 2024-10-01
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930
Mis à jour
Mise à niveau du pilote Nvidia et du Fabric Manager de la version 535.183.01 à la version 550.90.07
Version EFA mise à niveau de la version 1.32.0 à la version 1.34.0
Mise à niveau de NCCL vers la dernière version 2.22.3 pour toutes les versions de CUDA
CUDA 12.1, 12.2 mis à jour à partir de 2.18.5+ 2 CUDA12
CUDA 12.3 mis à jour à partir de la version 2.21.5+ 4 CUDA12
Ajouté
Ajout de la version 12.4 du kit d'outils CUDA dans le répertoire/-12.4 usr/local/cuda
Ajout du support pour les EC2 instances P5e.
Date de sortie : 2024-08-19
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816
Ajouté
Ajout du support pour l' EC2 instance G6e
.
Date de sortie : 2024-06-06
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606
Mis à jour
Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08
Date de sortie : 2024-05-15
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513
Supprimé
La prise en charge d'Amazon FSx for Lustre a été supprimée dans cette version en raison d'une incompatibilité avec les dernières versions du noyau Ubuntu 22.04. Support FSx pour Lustre sera rétabli une fois que la dernière version du noyau sera prise en charge. Les clients qui ont besoin FSx de Lustre doivent continuer à utiliser l'AMI GPU Deep Learning Base (Ubuntu 20.04).
Date de sortie : 2024-04-29
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429
Ajouté
Première version du DLAMI OSS (Deep Learning Base) pour Ubuntu 22.04