Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS GPU AMI PyTorch 2.5 pour apprentissage profond (Amazon Linux 2023)
Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.
Format du nom de l'AMI
Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Instances prises en charge
Reportez-vous à la section Modifications importantes apportées au DLAMI.
Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
L'AMI inclut les éléments suivants :
AWS Service pris en charge : EC2
Système d'exploitation : Amazon Linux 2023
Architecture informatique : x86
Stack NVIDIA CUDA12 2.4 :
Chemin d'installation de CUDA, NCCL et CudDN :/-12.4/ usr/local/cuda
-
CUDA par défaut : 12,4
CHEMIN/usr/local/cuda points to /usr/local/cuda-12.4/
-
Mise à jour des variables d'environnement ci-dessous :
LD_LIBRARY_PATH à avoir/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
CHEMIN à avoir/usr/local/cuda/bin/:/usr/local/cuda/include/
Version NCCL compilée pour 12.4 : 2.21.5
Lieu des tests NCCL :
all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
-
Pour exécuter les tests NCCL, LD_LIBRARY_PATH est déjà mis à jour avec les chemins nécessaires.
PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
LD_LIBRARY_PATH est mis à jour avec les chemins de version CUDA
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Installateur EFA : 1.38.0
Nvidia GDRCopy : 2,4.1
AWS NCCL OFI : 1.13.2-aws
AWS OFI NCCL prend désormais en charge plusieurs versions NCCL avec une seule version
Le chemin d'installation :/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libest ajouté à LD_LIBRARY_PATH.
Teste le chemin de la sonnerie, message_transfer :/opt/aws-ofi-nccl/tests
Version de Python : 3.11
Python :/opt/conda/envs/pytorch/bin/python
Pilote NVIDIA : 560.35.03
AWS CLI v2 à/usr/bin/aws
Type de volume EBS : GP3
NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme
Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :
Pilote OSS Nvidia :
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :
Pilote OSS Nvidia :
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avis
Instances P5/P5e :
DeviceIndex est unique à chacun NetworkCard et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1. Vous trouverez ci-dessous un exemple de commande de lancement d'instance EC2 P5 utilisant awscli, affiché NetworkCardIndex du numéro 0 à 31, 0 pour la première interface et 1 pour DeviceIndex les interfaces 31 restantes. DeviceIndex
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
La version du noyau est épinglée à l'aide de la commande :
sudo dnf versionlock kernel*
Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
sudo dnf versionlock delete kernel* sudo dnf update -y
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.
Date de sortie : 2025-02-17
Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216
Mis à jour
Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Supprimé
Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit
d'outils NVIDIA CUDA du 18 février 2025
Date de sortie : 2025-01-08
Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107
Ajouté
Support ajouté pour les instances G4dn.
Date de sortie : 2024-11-21
Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120
Ajouté
Première version du Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 pour Amazon Linux 2023
Problèmes connus
Ce DLAMI ne prend pas en charge les instances G4dn et EC2 G5 pour le moment. AWS est conscient d'une incompatibilité susceptible d'entraîner des échecs d'initialisation de CUDA, affectant à la fois les familles d'instances G4dn et G5 lors de l'utilisation des pilotes NVIDIA open source avec un noyau Linux version 6.1 ou ultérieure. Ce problème concerne les distributions Linux telles qu'Amazon Linux 2023, Ubuntu 22.04 ou version ultérieure, ou SUSE Linux Enterprise Server 15 SP6 ou version ultérieure, entre autres.