Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS AMI GPU ARM64 basée sur le Deep Learning (Ubuntu 22.04)
Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.
Format du nom de l'AMI
AMI GPU du pilote Nvidia OSS ARM64 basé sur le Deep Learning (Ubuntu 22.04) $ {YYYY-MM-DD}
EC2 Instances prises en charge
G5g, P6e- GB2 00 (CUDA>=12.8 est pris en charge sur P6e- 00) GB2
L'AMI inclut les éléments suivants :
AWS Service pris en charge : Amazon EC2
Système d'exploitation : Ubuntu 22.04
Architecture informatique : ARM64
La dernière version disponible est installée pour les packages suivants :
Noyau Linux : 6. 8
FSx Lustre
Docker
AWS CLI v2 à/usr/bin/aws
NVIDIA DCGM
Boîte à outils pour conteneurs Nvidia :
Commande de version : nvidia-container-cli -V
NVidia-Docker 2 :
Commande de version : nvidia-docker version
Pilote NVIDIA : 570.158.01
Pile NVIDIA CUDA 12,4, 12,5, 12,6, 12,8 :
Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Version NCCL compilée :
Pour le répertoire CUDA de 12.4, compilé la version 2.22.3+ 4 de NCCL CUDA12
Pour le répertoire CUDA de 12.5, compilé la version 2.22.3+ .5 de NCCL CUDA12
Pour le répertoire CUDA de 12.6, compilé la version NCCL 2.24.3+ .6 CUDA12
Pour le répertoire CUDA de 12.8, compilé la version 2.27.5+ de NCCL. CUDA12
CUDA par défaut : 12,8
PATH//usr/local/cudapointe vers CUDA 12.8
Mise à jour des variables d'environnement ci-dessous :
LD_LIBRARY_PATH doit avoir/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Installateur EFA : 1.42.0
Nvidia GDRCopy : 2,5.1
AWS Le plugin OFI NCCL est fourni avec le programme d'installation EFA
Les chemins/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efasont ajoutés à LD_LIBRARY_PATH.
AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws
Type de volume EBS : GP3
Python :/ usr/bin/python 3.10
Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :
SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output textInterrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Instances P6e- GB2 00
Les instances P6e- GB2 00 contiennent 17 cartes d'interface réseau et peuvent être lancées à l'aide de la AWS CLI commande suivante :
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"
Avis
Boîte à outils NVIDIA Container 1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Support multi-ENI
Ubuntu 22.04 installe et configure automatiquement le routage des sources sur plusieurs NICs via cloud-init lors de son démarrage initial. Si votre flux de travail inclut attaching/detaching vos ENI lorsqu'une instance est arrêtée, une configuration supplémentaire doit être ajoutée aux données utilisateur de cloud-init pour garantir une configuration correcte des cartes réseau lors de ces événements. Un exemple de configuration cloud est fourni ci-dessous.
Veuillez consulter cette documentation canonique ici pour plus d'informations sur la façon de configurer la configuration cloud pour vos instances - https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automatically-/setup-multiple-nics
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
Politique de support
Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning
Noyau
La version du noyau est épinglée à l'aide de la commande :
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.
Date de sortie : 2025-07-04
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250704
Mis à jour
Ajout du support à l' EC2 instance P6e- GB2 00. Veuillez noter que CUDA>=12.8 est pris en charge sur P6e-00 GB2
Ajouter EFA 1.42.0
Pilote Nvidia mis à jour de la version 570.133.20 à 570.158.01
Stack CUDA 12.8 amélioré avec NCCL 2.27.5
Date de sortie : 2025-04-24
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424
Mis à jour
Stack CUDA 12.8 mis à jour avec NCCL 2.26.2
CUDA par défaut mis à jour de 12.6 à 12.8
CUDA 12.3 supprimé
Date de sortie : 2025-03-03
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250303
Mis à jour
Pilote Nvidia de 550.144.03 à 570.86.15
CUDA par défaut est passé de CUDA12 1 à CUDA12 6.
Ajouté
Répertoire CUDA de 12.4 avec version NCCL CUDA12 2.22.3+ .4 compilée et cuDNN 9.7.1.26
Répertoire CUDA de 12.5 avec version NCCL CUDA12 2.22.3+ .5 compilée et cuDNN 9.7.1.26
Répertoire CUDA de 12.6 avec version NCCL CUDA12 2.24.3+ .6 compilée et cuDNN 9.7.1.26
Répertoire CUDA de 12.8 avec version NCCL CUDA12 2.25.1+ .8 compilée et cuDNN 9.7.1.26
Supprimé
Répertoire CUDA des versions 12.1 et 12.2
Date de sortie : 2025-02-17
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214
Mis à jour
Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.
Supprimé
Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit
d'outils NVIDIA CUDA du 18 février 2025
Date de sortie : 2025-01-17
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025
Date de sortie : 2024-10-23
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023
Mis à jour
Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA
d'octobre 2024
Date de sortie : 2024-06-06
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606
Mis à jour
Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08
Date de sortie : 2024-05-15
Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240514
Ajouté
Version initiale du DLAMI OSS de ARM64 base d'apprentissage profond pour Ubuntu 22.04