AWS AMI GPU basée sur le Deep Learning (Amazon Linux 2023) - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS AMI GPU basée sur le Deep Learning (Amazon Linux 2023)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

  • AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instances prises en charge

L'AMI inclut les éléments suivants :

  • AWS Service pris en charge : Amazon EC2

  • Système d'exploitation : Amazon Linux 2023

  • Architecture de calcul : x86

  • La dernière version disponible est installée pour les packages suivants :

    • Noyau Linux : 6.1

    • FSx Lustre

    • NVIDIA GDS

    • Docker

    • AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws

    • NVIDIA DCGM

    • Boîte à outils pour conteneurs Nvidia :

      • Commande de version : nvidia-container-cli -V

    • NVidia-Docker 2 :

      • Commande de version : nvidia-docker version

  • Pilote NVIDIA : 570.133.20

  • Stack NVIDIA CUDA 12.4-12.6 et 12.8 :

    • Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda

      • Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Version NCCL compilée : 2.26.5

    • CUDA par défaut : 12,8

      • PATH//usr/local/cudapointe vers CUDA 12.8

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATH à avoir/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib

        • CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

  • Installateur EFA : 1.40.0

  • Nvidia GDRCopy : 2,5

  • AWS NCCL OFI : 1.14.2-aws

    • AWS OFI NCCL prend désormais en charge plusieurs versions NCCL avec une seule version

    • Le chemin d'installation :/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libest ajouté à LD_LIBRARY_PATH.

  • AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws

  • Type de volume EBS : GP3

  • Python :/ usr/bin/python 3.9

  • NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme

  • Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
  • Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avis

Boîte à outils NVIDIA Container 1.17.4

Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Politique de support

Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning ou pour réduire la taille de l'AMI dans une future version, sans préavis. Nous supprimons les versions CUDA AMIs si elles ne sont utilisées par aucune version du framework prise en charge.

Instances P6-B200

Les instances P6-B200 contiennent 8 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en

Les instances P5en contiennent 16 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5/P5e

Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
  • La version du noyau est épinglée à l'aide de la commande :

    sudo dnf versionlock kernel*
  • Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer une mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-05-15

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515

Ajouté

Mis à jour

  • Mise à niveau du programme d'installation d'EFA de la version 1.38.1 à la version 1.40.0

  • Mise à niveau GDRCopy de la version 2.4 à la version 2.5

  • Plugin AWS OFI NCCL amélioré de la version 1.13.0-aws à la version 1.14.2-aws

  • Version NCCL compilée mise à jour de la version 2.25.1 à 2.26.5

  • Version CUDA par défaut mise à jour de la version 12.6 à 12.8

  • Version Nvidia DCGM mise à jour de 3.3.9 à 4.4.3

Date de sortie : 2025-04-22

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 570.124.06 à la version 570.133.20 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA d'avril 2025

Date de sortie : 2025-03-31

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328

Ajouté

Date de sortie : 2025-02-17

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250215

Mis à jour

  • Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4

    • Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4

    • Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Supprimé

Date de sortie : 2025-02-05

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205

Ajouté

  • Ajout de la version 12.6 du kit d'outils CUDA dans le répertoire/-12.6 usr/local/cuda

  • Support supplémentaire pour les instances G5 EC2

Supprimé

  • Les versions 12.1 et 12.2 de CUDA ont été supprimées de ce DLAMI. Les clients qui ont besoin de ces versions du kit d'outils CUDA peuvent les installer directement depuis NVIDIA en utilisant le lien ci-dessous

Date de sortie : 2025-02-03

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131

Mis à jour

  • Version EFA mise à niveau de 1.37.0 à 1.38.0

    • EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement votre emplacement OFI NCCL.

  • Mise à niveau de Nvidia Container Toolkit de la version 1.17.3 à la version 1.17.4

Date de sortie : 2025-01-08

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107

Mis à jour

  • Ajout du support pour les instances G4dn

Date de sortie : 2024-12-09

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206

Mis à jour

  • Mise à niveau de Nvidia Container Toolkit de la version 1.17.0 à la version 1.17.3

Date de sortie : 2024-11-21

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121

Ajouté

  • Ajout du support pour les instances P5en. EC2

Mis à jour

  • Mise à niveau du programme d'installation d'EFA de la version 1.35.0 à la version 1.37.0

  • Mise à niveau du plugin AWS OFI NCCL de la version 1.121-aws à la version 1.13.0-aws

Date de sortie : 2024-10-30

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030

Ajouté

  • Version initiale du DLAMI OSS (Deep Learning Base) pour Amazon Linux 2023

Problèmes connus

  • Ce DLAMI ne prend pas en charge les instances G4dn et EC2 G5 pour le moment. AWS est conscient d'une incompatibilité susceptible d'entraîner des échecs d'initialisation de CUDA, affectant à la fois les familles d'instances G4dn et G5 lors de l'utilisation des pilotes NVIDIA open source avec un noyau Linux version 6.1 ou ultérieure. Ce problème concerne les distributions Linux telles qu'Amazon Linux 2023, Ubuntu 22.04 ou version ultérieure, ou SUSE Linux Enterprise Server 15 SP6 ou version ultérieure, entre autres.