Format du nom de l'AMI EC2 Instances prises en charge Contenu AMI Avis Date de sortie : 2025-07-22 Date de sortie : 2025-05-22 Date de sortie : 2025-05-13

AWS AMI GPU basée sur le Deep Learning (Ubuntu 24.04)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Ubuntu 24.04) $ {YYYY-MM-DD}

EC2 Instances prises en charge

Reportez-vous à la section Modifications importantes apportées au DLAMI.
Apprentissage profond avec OSS Le pilote Nvidia prend en charge les modèles G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200.

L'AMI inclut les éléments suivants :

AWS Service pris en charge : Amazon EC2
Système d'exploitation : Ubuntu 24.04
Architecture de calcul : x86
La dernière version disponible est installée pour les packages suivants :
- Noyau Linux : 6. 8
- FSx Lustre
- Docker
- AWS CLI v2 à/usr/bin/aws
- NVIDIA DCGM
- Boîte à outils pour conteneurs Nvidia :
  - Commande de version : nvidia-container-cli -V
- NVidia-Docker 2 :
  - Commande de version : nvidia-docker version
Pilote NVIDIA : 570.172.08
Stack NVIDIA CUDA 12.6 et 12.8 :
- Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
  - Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
- Version NCCL compilée : 2.25.1
- CUDA par défaut : 12,8
  - PATH//usr/local/cudapointe vers CUDA 12.8
  - Mise à jour des variables d'environnement ci-dessous :
    
    LD_LIBRARY_PATH doit avoir/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
    CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
    Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Installateur EFA : 1.43.1
Nvidia GDRCopy : 2,5.1
AWS Le plugin OFI NCCL est fourni avec le programme d'installation EFA
- Les chemins/opt/amazon/ofi-nccl/lib/x86_64-linux-gnu and /opt/amazon/ofi-nccl/efasont ajoutés à LD_LIBRARY_PATH.
AWS CLI v2 à/usr/bin/aws
Type de volume EBS : GP3
Python :/ usr/bin/python 3,12
NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme

Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :

Pilote OSS Nvidia :


SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \
    aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/$SSM_PARAMETER  \
    --query "Parameter.Value" \
    --output text

Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :

Pilote OSS Nvidia :


aws ec2 describe-images --region us-east-1 \
    --owners amazon \
    --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Avis

Politique de support

Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning ou pour réduire la taille de l'AMI dans une future version, sans préavis. Nous supprimons les versions CUDA AMIs si elles ne sont utilisées par aucune version du framework prise en charge.

EC2 instance avec plusieurs cartes réseau

De nombreux types d’instances compatibles avec EFA possèdent également plusieurs cartes réseau.
DeviceIndex est unique à chaque carte réseau et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1.
- Pour l'interface réseau principale (index de carte réseau 0, indice de périphérique 0), créez une interface EFA (EFA avec ENA). Vous ne pouvez pas utiliser une interface réseau uniquement EFA comme interface réseau principale.
- Pour chaque interface réseau supplémentaire, utilisez le prochain index de carte réseau inutilisé, l'index de périphérique 1, et une interface réseau EFA (EFA avec ENA) ou EFA uniquement, selon votre cas d'utilisation, comme les exigences en bande passante ENA ou l'espace d'adressage IP. Pour des exemples de cas d'utilisation, consultez la section Configuration EFA pour une instance P5.
- Pour plus d'informations, consultez le guide EFA ici.

Instances P6-B200

Les instances P6-B200 contiennent 8 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instances P5en

Le P5en contient 16 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instances P5/P5e

Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ...
     "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Noyau

La version du noyau est épinglée à l'aide de la commande :


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer une mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
```
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-07-22

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250722

Mis à jour

Mise à niveau du pilote Nvidia de 570.158.01 à 570.172.08 pour corriger les CVE présents dans le bulletin de sécurité Nvidia de juillet

Date de sortie : 2025-05-22

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522

Ajouté

Ajout du support pour les instances P6-B200 EC2

Mis à jour

Mise à niveau du programme d'installation d'EFA de la version 1.40.0 à la version 1.41.0
Version NCCL compilée mise à jour de la version 2.25.1 à 2.26.5
Version Nvidia DCGM mise à jour de 3.3.9 à 4.4.3

Date de sortie : 2025-05-13

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513

Ajouté

Première version du DLAMI OSS (Deep Learning Base) pour Ubuntu 24.04

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

AMI GPU de base (Amazon Linux 2023)

AMI GPU de base (Ubuntu 22.04)