Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS AMI GPU basée sur le Deep Learning (Ubuntu 24.04)
Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.
Format du nom de l'AMI
AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Ubuntu 24.04) $ {YYYY-MM-DD}
EC2 Instances prises en charge
Reportez-vous à la section Modifications importantes apportées au DLAMI.
Apprentissage profond avec OSS Le pilote Nvidia prend en charge les modèles G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200.
L'AMI inclut les éléments suivants :
AWS Service pris en charge : Amazon EC2
Système d'exploitation : Ubuntu 24.04
Architecture de calcul : x86
La dernière version disponible est installée pour les packages suivants :
Noyau Linux : 6. 8
FSx Lustre
Docker
AWS CLI v2 à/usr/bin/aws
NVIDIA DCGM
Boîte à outils pour conteneurs Nvidia :
Commande de version : nvidia-container-cli -V
NVidia-Docker 2 :
Commande de version : nvidia-docker version
Pilote NVIDIA : 570.133.20
Stack NVIDIA CUDA 12.6 et 12.8 :
Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Version NCCL compilée : 2.25.1
CUDA par défaut : 12,8
PATH//usr/local/cudapointe vers CUDA 12.8
Mise à jour des variables d'environnement ci-dessous :
LD_LIBRARY_PATH doit avoir/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Programme d'installation EFA : 1.40.0
Nvidia GDRCopy : 2,5.1
AWS NCCL OFI : 1.14.2-aws
Le chemin d'installation :/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libest ajouté à LD_LIBRARY_PATH.
AWS CLI v2 à/usr/bin/aws
Type de volume EBS : GP3
Python :/ usr/bin/python 3,12
NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme
Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :
Pilote OSS Nvidia :
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :
Pilote OSS Nvidia :
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avis
Politique de support
Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning
EC2 instance avec plusieurs cartes réseau
De nombreux types d’instances compatibles avec EFA possèdent également plusieurs cartes réseau.
DeviceIndex est unique à chaque carte réseau et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1.
Pour l'interface réseau principale (index de carte réseau 0, indice de périphérique 0), créez une interface EFA (EFA avec ENA). Vous ne pouvez pas utiliser une interface réseau uniquement EFA comme interface réseau principale.
Pour chaque interface réseau supplémentaire, utilisez le prochain index de carte réseau inutilisé, l'index de périphérique 1, et une interface réseau EFA (EFA avec ENA) ou EFA uniquement, selon votre cas d'utilisation, comme les exigences en bande passante ENA ou l'espace d'adressage IP. Pour des exemples de cas d'utilisation, consultez la section Configuration EFA pour une instance P5.
Pour plus d'informations, consultez le guide EFA ici.
Instances P6-B200
Les instances P6-B200 contiennent 8 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en
Le P5en contient 16 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5/P5e
Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
La version du noyau est épinglée à l'aide de la commande :
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer une mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.
Date de sortie : 2025-05-22
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522
Ajouté
Ajout du support pour les instances P6-B200 EC2
Mis à jour
Mise à niveau du programme d'installation d'EFA de la version 1.40.0 à la version 1.41.0
Version NCCL compilée mise à jour de la version 2.25.1 à 2.26.5
Version Nvidia DCGM mise à jour de 3.3.9 à 4.4.3
Date de sortie : 2025-05-13
Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513
Ajouté
Première version du DLAMI OSS (Deep Learning Base) pour Ubuntu 24.04