AWS AMI GPU basée sur le Deep Learning (Ubuntu 22.04) - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS AMI GPU basée sur le Deep Learning (Ubuntu 22.04)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

  • AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Instances prises en charge

L'AMI inclut les éléments suivants :

  • AWS Service pris en charge : Amazon EC2

  • Système d'exploitation : Ubuntu 22.04

  • Architecture de calcul : x86

  • La dernière version disponible est installée pour les packages suivants :

    • Noyau Linux : 6. 8

    • FSx Lustre

    • Docker

    • AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws

    • NVIDIA DCGM

    • Boîte à outils pour conteneurs Nvidia :

      • Commande de version : nvidia-container-cli -V

    • NVidia-Docker 2 :

      • Commande de version : nvidia-docker version

  • Pilote NVIDIA : 570.133.20

  • Stack NVIDIA CUDA 12.4-12.6 et 12.8 :

    • Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda

      • Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Version NCCL compilée : 2.26.5

    • CUDA par défaut : 12,8

      • PATH//usr/local/cudapointe vers CUDA 12.8

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATH doit avoir/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib

        • CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

  • Installateur EFA : 1.40.0

  • Nvidia GDRCopy : 2,5

  • AWS NCCL OFI : 1.14.2-aws

    • Le chemin d'installation :/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libest ajouté à LD_LIBRARY_PATH.

  • AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws

  • Type de volume EBS : GP3

  • Python :/ usr/bin/python 3.10

  • NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme

  • Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avis

Boîte à outils NVIDIA Container 1.17.4

Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Mises à jour de l'EFA de 1.37 à 1.38 (sortie le 31/01/2020)

EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.

Support multi-ENI
  • Ubuntu 22.04 installe et configure automatiquement le routage des sources sur plusieurs à NICss l'aide de cloud-init lors de son démarrage initial. Si votre flux de travail inclut attaching/detaching le vôtre ENIs lorsqu'une instance est arrêtée, une configuration supplémentaire doit être ajoutée aux données utilisateur de cloud-init afin de garantir une configuration correcte des cartes réseau lors de ces événements. Un exemple de configuration du cloud est fourni ci-dessous.

  • Veuillez consulter cette documentation canonique ici pour plus d'informations sur la façon de configurer la configuration cloud pour vos instances - https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automatically-/setup-multiple-nics

#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

Politique de support

Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning ou pour réduire la taille de l'AMI dans une future version, sans préavis. Nous supprimons les versions CUDA AMIs si elles ne sont utilisées par aucune version du framework prise en charge.

EC2 instances avec plusieurs cartes réseau
  • De nombreux types d’instances compatibles avec EFA possèdent également plusieurs cartes réseau.

  • DeviceIndex est unique à chaque carte réseau et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1.

    • Pour l'interface réseau principale (index de carte réseau 0, indice de périphérique 0), créez une interface EFA (EFA avec ENA). Vous ne pouvez pas utiliser une interface réseau uniquement EFA comme interface réseau principale.

    • Pour chaque interface réseau supplémentaire, utilisez le prochain index de carte réseau inutilisé, l'index de périphérique 1, et une interface réseau EFA (EFA avec ENA) ou EFA uniquement, selon votre cas d'utilisation, comme les exigences en bande passante ENA ou l'espace d'adressage IP. Pour des exemples de cas d'utilisation, consultez la section Configuration EFA pour une instance P5.

    • Pour plus d'informations, consultez le guide EFA ici.

Instances P6-B200

Le P6-B200 contient 8 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en

Le P5en contient 16 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5/P5e

Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
  • La version du noyau est épinglée à l'aide de la commande :

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer une mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-05-16

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516

Ajouté

  • Ajout du support pour les instances P6-B200 EC2

Mis à jour

  • Mise à niveau du programme d'installation d'EFA de la version 1.39.0 à la version 1.40.0

  • Mise à niveau du plugin AWS OFI NCCL de la version 1.13.0-aws à la version 1.14.2-aws

  • Version NCCL compilée mise à jour de la version 2.22.3 à 2.26.5

  • Version CUDA par défaut mise à jour de la version 12.6 à 12.8

  • Version Nvidia DCGM mise à jour de 3.3.9 à 4.4.3

Date de sortie : 2025-05-05

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Mis à jour

  • Mise à niveau GDRCopy de la version 2.4.1 à la version 2.5.1

Date de sortie : 2025-04-24

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 570.124.06 à la version 570.133.20 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA d'avril 2025

Date de sortie : 2025-02-17

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Mis à jour

  • Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4

    • Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4

    • Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Supprimé

Date de sortie : 2025-02-07

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205

Ajouté

  • Ajout de la version 12.6 du kit d'outils CUDA dans le répertoire/-12.6 usr/local/cuda

Supprimé

Date de sortie : 2025-01-31

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131

Mis à jour

  • Version EFA mise à niveau de 1.37.0 à 1.38.0

    • EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.

  • Mise à niveau de Nvidia Container Toolkit de la version 1.17.3 à la version 1.17.4

Date de sortie : 2025-01-17

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025

Date de sortie : 2024-11-18

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115

Ajouté

  • Ajout FSx du package Amazon pour le support Lustre.

Fixe

  • En raison d'une modification apportée au noyau Ubuntu pour corriger un défaut de la fonctionnalité KASLR (Kernel Address Space Layout Randomization), les instances G4Dn/G5 ne sont pas en mesure d'initialiser correctement CUDA sur le pilote OSS Nvidia. Afin d'atténuer ce problème, ce DLAMI inclut une fonctionnalité qui charge dynamiquement le pilote propriétaire pour les instances G4Dn et G5. Veuillez prévoir une brève période d'initialisation pour ce chargement afin de garantir le bon fonctionnement de vos instances.

    Pour vérifier l'état et l'état de santé de ce service, vous pouvez utiliser la commande suivante :

sudo systemctl is-active dynamic_driver_load.service active

Date de sortie : 2024-10-23

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA d'octobre 2024

Date de sortie : 2024-10-01

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930

Mis à jour

Ajouté

  • Ajout de la version 12.4 du kit d'outils CUDA dans le répertoire/-12.4 usr/local/cuda

  • Ajout du support pour les EC2 instances P5e.

Date de sortie : 2024-08-19

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816

Ajouté

Date de sortie : 2024-06-06

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Mis à jour

  • Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08

Date de sortie : 2024-05-15

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513

Supprimé

  • La prise en charge d'Amazon FSx for Lustre a été supprimée dans cette version en raison d'une incompatibilité avec les dernières versions du noyau Ubuntu 22.04. Support FSx pour Lustre sera rétabli une fois que la dernière version du noyau sera prise en charge. Les clients qui ont besoin FSx de Lustre doivent continuer à utiliser l'AMI GPU Deep Learning Base (Ubuntu 20.04).

Date de sortie : 2024-04-29

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429

Ajouté

  • Première version du DLAMI OSS (Deep Learning Base) pour Ubuntu 22.04