Format du nom de l'AMI EC2 Instances prises en charge Contenu AMI Avis Date de sortie : 2025-07-04 Date de sortie : 2025-04-24 Date de sortie : 2025-04-22 Date de sortie : 2025-04-04 Date de sortie : 2025-03-03 Date de sortie : 2025-02-14

AWS AMI GPU ARM64 basée sur le Deep Learning (Amazon Linux 2023)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

AMI GPU du pilote Nvidia OSS ARM64 basé sur le Deep Learning (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instances prises en charge

G5g, P6e- GB2 00 (CUDA>=12.8 est pris en charge sur P6e- 00) GB2

L'AMI inclut les éléments suivants :

AWS Service pris en charge : Amazon EC2
Système d'exploitation : Amazon Linux 2023
Architecture informatique : ARM64
La dernière version disponible est installée pour les packages suivants :
- Noyau Linux : 6. 12
- FSx Lustre
- Docker
- AWS CLI v2 à/usr/bin/aws
- NVIDIA DCGM
- Boîte à outils pour conteneurs Nvidia :
  - Commande de version : nvidia-container-cli -V
- NVidia-Docker 2 :
  - Commande de version : nvidia-docker version
Pilote NVIDIA : 570.158.01
Pile NVIDIA CUDA 12,4, 12,5, 12,6, 12,8 :
- Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda
  - Exemple :/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
- Version NCCL compilée :
  - Pour le répertoire CUDA de 12.4, compilé la version 2.22.3+ 4 de NCCL CUDA12
  - Pour le répertoire CUDA de 12.5, compilé la version 2.22.3+ .5 de NCCL CUDA12
  - Pour le répertoire CUDA de 12.6, compilé la version NCCL 2.24.3+ .6 CUDA12
  - Pour le répertoire CUDA de 12.8, compilé la version 2.27.5+ de NCCL. CUDA12
- CUDA par défaut : 12,8
  - PATH//usr/local/cudapointe vers CUDA 12.8
  - Mise à jour des variables d'environnement ci-dessous :
    
    LD_LIBRARY_PATH doit avoir/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
    CHEMIN à avoir/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
    Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.
Installateur EFA : 1.42.0
Nvidia GDRCopy : 2,5.1
AWS Le plugin OFI NCCL est fourni avec le programme d'installation EFA
- Les chemins/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efasont ajoutés à LD_LIBRARY_PATH.
AWS CLI v2 à/usr/local/bin/aws
Type de volume EBS : GP3
Python :/ usr/bin/python 3.9

Requête AMI-ID avec le paramètre SSM (exemple de région : us-east-1) :


SSM_PARAMETER=base-oss-nvidia-driver-gpu-amazon-linux-2023/latest/ami-id \
    aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER  \
    --query "Parameter.Value" \
    --output text

Requête AMI-ID avec AWSCLI (exemple de région : us-east-1) :


aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Instances P6e- GB2 00

Les instances P6e- GB2 00 contiennent 17 cartes d'interface réseau et peuvent être lancées à l'aide de la AWS CLI commande suivante :


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces \
        "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \
        "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \
        "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

Avis

Boîte à outils NVIDIA Container 1.17.4

Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Politique de support

Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning ou pour réduire la taille de l'AMI dans une future version, sans préavis. Nous supprimons les versions CUDA AMIs si elles ne sont utilisées par aucune version du framework prise en charge.

Noyau

La version du noyau est épinglée à l'aide de la commande :
```
sudo dnf versionlock kernel*
```
Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :
```
sudo dnf versionlock delete kernel*
sudo dnf update -y
```
Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-07-04

Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250704

Mis à jour

Ajout du support à l' EC2 instance P6e- GB2 00. Veuillez noter que CUDA>=12.8 est pris en charge sur P6e-00 GB2
Ajouter EFA 1.42.0
Pilote Nvidia mis à jour de la version 570.133.20 à 570.158.01
Stack CUDA 12.8 amélioré avec NCCL 2.27.5

Date de sortie : 2025-04-24

Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250424

Mis à jour

Mise à niveau du pilote Nvidia de la version 570.86.15 à la version 570.133.20 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA d'avril 2025
Mise à jour de CUDA12 1.8 stack avec NCCL 2.26.2
CUDA par défaut mis à jour de 12.6 à 12.8

Date de sortie : 2025-04-22

Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Mis à jour

Mise à niveau du pilote Nvidia de la version 570.124.06 à la version 570.133.20 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA d'avril 2025

Date de sortie : 2025-04-04

Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250404

Mis à jour

Version du noyau mise à jour de 6.1 à 6.12

Date de sortie : 2025-03-03

Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250303

Mis à jour

Pilote Nvidia de 550.144.03 à 570.86.15
Le CUDA par défaut est passé de CUDA12 0,4 à CUDA12 6.

Ajouté

Répertoire CUDA de 12.5 avec version NCCL CUDA12 2.22.3+ .5 compilée et cuDNN 9.7.1.26
Répertoire CUDA de 12.6 avec version NCCL CUDA12 2.24.3+ .6 compilée et cuDNN 9.7.1.26
Répertoire CUDA de 12.8 avec version NCCL CUDA12 2.25.1+ .8 compilée et cuDNN 9.7.1.26

Date de sortie : 2025-02-14

Nom de l'AMI : Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250214

Ajouté

Publication initiale du DLAMI OSS (Deep Learning ARM64 Base) pour Amazon Linux 2023

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

ARM64

ARM64 AMI GPU de base (Ubuntu 22.04)