Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS AMI GPU basée sur le Deep Learning (Amazon Linux 2023)
Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.
Format du nom de l'AMI
AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Instances prises en charge
Reportez-vous à la section Modifications importantes apportées au DLAMI
Apprentissage profond avec OSS Le pilote Nvidia prend en charge les modèles G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200
L'AMI inclut les éléments suivants :
AWS Service pris en charge : Amazon EC2
Système d'exploitation : Amazon Linux 2023
Architecture de calcul : x86
La dernière version disponible est installée pour les packages suivants :
Noyau Linux : 6.1
FSx Lustre
NVIDIA GDS
Docker
AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws
NVIDIA DCGM
Boîte à outils pour conteneurs Nvidia :
Commande de version : nvidia-container-cli -V
NVidia-Docker 2 :
Commande de version : nvidia-docker version
Pilote NVIDIA : 570.133.20
Stack NVIDIA CUDA 12.4-12.6 et 12.8 :
Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Version NCCL compilée : 2.26.5
CUDA par défaut : 12,8
PATH//usr/local/cudapointe vers CUDA 12.8
Mise à jour des variables d'environnement ci-dessous :
LD_LIBRARY_PATH à avoir/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib
CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Installateur EFA : 1.40.0
Nvidia GDRCopy : 2,5
AWS NCCL OFI : 1.14.2-aws
AWS OFI NCCL prend désormais en charge plusieurs versions NCCL avec une seule version
Le chemin d'installation :/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libest ajouté à LD_LIBRARY_PATH.
AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws
Type de volume EBS : GP3
Python :/ usr/bin/python 3.9
NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme
Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :
Pilote OSS Nvidia :
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :
Pilote OSS Nvidia :
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avis
Boîte à outils NVIDIA Container 1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Politique de support
Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning
Instances P6-B200
Les instances P6-B200 contiennent 8 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en
Les instances P5en contiennent 16 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5/P5e
Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
-
La version du noyau est épinglée à l'aide de la commande :
sudo dnf versionlock kernel*
-
Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer une mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
sudo dnf versionlock delete kernel* sudo dnf update -y
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.
Date de sortie : 2025-05-15
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515
Ajouté
Ajout du support pour les instances P6-B200 EC2
Mis à jour
Mise à niveau du programme d'installation d'EFA de la version 1.38.1 à la version 1.40.0
Mise à niveau GDRCopy de la version 2.4 à la version 2.5
Plugin AWS OFI NCCL amélioré de la version 1.13.0-aws à la version 1.14.2-aws
Version NCCL compilée mise à jour de la version 2.25.1 à 2.26.5
Version CUDA par défaut mise à jour de la version 12.6 à 12.8
Version Nvidia DCGM mise à jour de 3.3.9 à 4.4.3
Date de sortie : 2025-04-22
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421
Mis à jour
Mise à niveau du pilote Nvidia de la version 570.124.06 à la version 570.133.20 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA
d'avril 2025
Date de sortie : 2025-03-31
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328
Ajouté
Ajout du support pour NVIDIA GPU Direct Storage (GDS
)
Date de sortie : 2025-02-17
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250215
Mis à jour
Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Supprimé
Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit
d'outils NVIDIA CUDA du 18 février 2025
Date de sortie : 2025-02-05
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205
Ajouté
Ajout de la version 12.6 du kit d'outils CUDA dans le répertoire/-12.6 usr/local/cuda
Support supplémentaire pour les instances G5 EC2
Supprimé
Les versions 12.1 et 12.2 de CUDA ont été supprimées de ce DLAMI. Les clients qui ont besoin de ces versions du kit d'outils CUDA peuvent les installer directement depuis NVIDIA en utilisant le lien ci-dessous
Date de sortie : 2025-02-03
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131
Mis à jour
Version EFA mise à niveau de 1.37.0 à 1.38.0
EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement votre emplacement OFI NCCL.
Mise à niveau de Nvidia Container Toolkit de la version 1.17.3 à la version 1.17.4
Date de sortie : 2025-01-08
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107
Mis à jour
Ajout du support pour les instances G4dn
Date de sortie : 2024-12-09
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206
Mis à jour
Mise à niveau de Nvidia Container Toolkit de la version 1.17.0 à la version 1.17.3
Date de sortie : 2024-11-21
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121
Ajouté
Ajout du support pour les instances P5en. EC2
Mis à jour
Mise à niveau du programme d'installation d'EFA de la version 1.35.0 à la version 1.37.0
Mise à niveau du plugin AWS OFI NCCL de la version 1.121-aws à la version 1.13.0-aws
Date de sortie : 2024-10-30
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030
Ajouté
Version initiale du DLAMI OSS (Deep Learning Base) pour Amazon Linux 2023
Problèmes connus
Ce DLAMI ne prend pas en charge les instances G4dn et EC2 G5 pour le moment. AWS est conscient d'une incompatibilité susceptible d'entraîner des échecs d'initialisation de CUDA, affectant à la fois les familles d'instances G4dn et G5 lors de l'utilisation des pilotes NVIDIA open source avec un noyau Linux version 6.1 ou ultérieure. Ce problème concerne les distributions Linux telles qu'Amazon Linux 2023, Ubuntu 22.04 ou version ultérieure, ou SUSE Linux Enterprise Server 15 SP6 ou version ultérieure, entre autres.