Format du nom de l'AMI EC2 Instances prises en charge Contenu AMI Avis Date de sortie : 2025-02-17 Date de sortie : 2025-01-21 Date de sortie : 2024-11-21

AWS GPU AMI PyTorch 2.5 pour apprentissage profond (Ubuntu 22.04)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5. $ {PATCH_VERSION} (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Instances prises en charge

Reportez-vous à la section Modifications importantes apportées au DLAMI.
Apprentissage profond avec OSS Le pilote Nvidia prend en charge les modèles G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.

L'AMI inclut les éléments suivants :

AWS Service pris en charge : Amazon EC2
Système d'exploitation : Ubuntu 22.04
Architecture de calcul : x86
Python :/opt/conda/envs/pytorch/bin/python
Pilote NVIDIA :
- Pilote OSS Nvidia : 570.172.08
Stack NVIDIA CUDA12 2.4 :
- Chemin d'installation de CUDA, NCCL et CudDN :/-12.4/ usr/local/cuda
- CUDA par défaut : 12,4
  - CHEMIN/usr/local/cuda points to /usr/local/cuda-12.4/
  - Mise à jour des variables d'environnement ci-dessous :
    
    LD_LIBRARY_PATH à avoir/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
    CHEMIN à avoir/usr/local/cuda/bin/:/usr/local/cuda/include/
- Version NCCL du système compilé présente à l'adresse/usr/local/cuda/: 2.21.5
- PyTorch Version NCCL compilée à partir de l'environnement PyTorch conda : 2.21.5
Lieu des tests du NCCL :
- all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
- Pour exécuter des tests NCCL, LD_LIBRARY_PATH est déjà mis à jour avec les chemins nécessaires.
  - PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :
    
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
- LD_LIBRARY_PATH est mis à jour avec les chemins de version CUDA
  - /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Installateur EFA : 1.43.1
Nvidia GDRCopy : 2,4.1
Moteur Nvidia Transformer : v1.11.0
AWS Plugin OFI NCCL : installé dans le cadre du programme d'installation EFA AWS
- Le chemin d'installation :/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libest ajouté à LD_LIBRARY_PATH.
- Teste le chemin de la sonnerie, message_transfer :/opt/aws-ofi-nccl/tests
- Remarque : le PyTorch package est également livré avec un plugin AWS OFI NCCL lié dynamiquement en tant que aws-ofi-nccl-dlc package conda et PyTorch utilisera ce package au lieu du système AWS OFI NCCL.
AWS CLI v2 en tant qu'aws2 et AWS CLI v1 en tant qu'aws
Type de volume EBS : GP3
Version de Python : 3.11

Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :

Pilote OSS Nvidia :


aws ssm get-parameter --region us-east-1 \
        --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-ubuntu-22.04/latest/ami-id  \
        --query "Parameter.Value" \
        --output text

Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :

Pilote OSS Nvidia :


aws ec2 describe-images --region us-east-1 \
    --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Avis

Instances P5/P5e :

DeviceIndex est unique à chacun NetworkCard et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1. Vous trouverez ci-dessous un exemple de commande de lancement d'instance EC2 P5 utilisant awscli, affiché NetworkCardIndex du numéro 0 à 31 et DeviceIndex sous la forme 0 pour la première interface et DeviceIndex sous la forme 1 pour les interfaces 31 restantes.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
     "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Noyau

La version du noyau est épinglée à l'aide de la commande :


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
```
echo linux-aws install | sudo dpkg —set-selections
echo linux-headers-aws install | sudo dpkg —set-selections
echo linux-image-aws install | sudo dpkg —set-selections
apt-get upgrade -y
```
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-02-17

Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20250216

Mis à jour

Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
- Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
- Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Supprimé

Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit d'outils NVIDIA CUDA du 18 février 2025

Date de sortie : 2025-01-21

Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20250119

Mis à jour

Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025.

Date de sortie : 2024-11-21

Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20241121

Ajouté

Version initiale de la série de GPU AMI Deep Learning PyTorch 2.4.1 (Ubuntu 22.04). Y compris un environnement Conda Pytorch complété par le pilote NVIDIA R550, CUDA=12.4.1, CUDNN=8.9.7, NCCL=2.21.5 et EFA=1.37.0. PyTorch

Fixe

En raison d'une modification apportée au noyau Ubuntu pour corriger un défaut de la fonctionnalité KASLR (Kernel Address Space Layout Randomization), les instances G4Dn/G5 ne sont pas en mesure d'initialiser correctement CUDA sur le pilote OSS Nvidia. Afin d'atténuer ce problème, ce DLAMI inclut une fonctionnalité qui charge dynamiquement le pilote propriétaire pour les instances G4Dn et G5. Veuillez prévoir une brève période d'initialisation pour ce chargement afin de garantir le bon fonctionnement de vos instances.
- Pour vérifier l'état et l'état de santé de ce service, vous pouvez utiliser les commandes suivantes :


sudo systemctl is-active dynamic_driver_load.service
active

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Processeur graphique PyTorch 2.5 (Amazon Linux 2023)

Processeur graphique PyTorch 2.4 (Ubuntu 22.04)