AWS Processeur graphique AMI OSS PyTorch 2.7 pour le Deep Learning (Amazon Linux 2023) - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Processeur graphique AMI OSS PyTorch 2.7 pour le Deep Learning (Amazon Linux 2023)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

  • Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instances prises en charge

L'AMI inclut les éléments suivants :

  • AWS Service pris en charge : Amazon EC2

  • Système d'exploitation : Amazon Linux 2023

  • Architecture de calcul : x86

  • Noyau Linux : 6.1

  • Pilote NVIDIA : 570.133.20

  • Stack NVIDIA CUDA 12.8 :

    • Répertoires d'installation CUDA, NCCL et CudDN :/-12.8/ usr/local/cuda

    • Lieu des tests du NCCL :

      • all_reduce, all_gather et reduce_scatter :

        /usr/local/cuda-12.8/efa/test-cuda-12.8/
      • Pour exécuter des tests NCCL, LD_LIBRARY_PATH est déjà mis à jour avec les chemins nécessaires.

        • PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :

          /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
        • LD_LIBRARY_PAT est mis à jour avec les chemins de version CUDA :

          /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
    • Version NCCL compilée :

      • Pour le répertoire CUDA de 12.8, compilé la version NCCL 2.26.2+ .8 CUDA12

    • CUDA par défaut : 12,8

      • PATH//usr/local/cudapointe vers CUDA 12.8

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATH à avoir/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib

        • CHEMIN à avoir/usr/local/cuda/bin/:/usr/local/cuda/include/

  • Installateur EFA : 1.40.0

  • Nvidia GDRCopy : 2,5

  • AWS NCCL OFI : 1.14.2-aws

    • Le chemin d'installation :/opt/amazon/ofi-nccl/. Path /opt/amazon/ofi-nccl/libest ajouté à LD_LIBRARY_PATH

  • AWS CLI v2 à/usr/local/bin/aws

  • Type de volume EBS : GP3

  • Boîte à outils pour conteneurs Nvidia : 1.17.7

    • Commande de version : nvidia-container-cli -V

  • Docker : 25,0,8

  • Python :/ usr/bin/python 3,12

  • Requête AMI-ID avec le paramètre SSM (exemple de région : us-east-1) :

    aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Requête AMI-ID avec AWSCLI (exemple de région : us-east-1) :

    aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Avis

Instances P6-B200

  • Les instances P6-B200 nécessitent la version 12.8 ou supérieure de CUDA et le pilote NVIDIA 570 ou des pilotes plus récents.

  • Le P6-B200 contient 8 cartes d'interface réseau et peut être lancé à l'aide de la commande CLI AWS suivante :

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instances P5/P5e

  • DeviceIndex est unique à chacun NetworkCard et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1. Vous trouverez ci-dessous un exemple de commande de lancement d'instance EC2 P5 utilisant awscli, s'affichant NetworkCardIndex entre 0 et DeviceIndex 31, 0 pour la première interface et 1 pour les 31 interfaces restantes.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Noyau

  • La version du noyau est épinglée à l'aide de la commande :

    sudo dnf versionlock kernel*
  • Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

PyTorch Obsolète d'Anaconda Channel

À partir de la PyTorch version 2.6, le support de Conda est PyTorch devenu obsolète (voir l'annonce officielle). Par conséquent, les PyTorch versions 2.6 et supérieures utiliseront les environnements virtuels Python. Pour activer le PyTorch venv, veuillez utiliser la source/opt/pytorch/bin/activate

Date de sortie : 2025-05-22

Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) 20250520

Ajouté

  • Version initiale de la série de GPU AMI Deep Learning PyTorch 2.7 (Amazon Linux 2023). Incluant un environnement virtuel Python pytorch (source/opt/pytorch/bin/activate) complété par le pilote NVIDIA R570, CUDA=12.8, cuDNN=9.10, NCCL=2.26.2 et EFA=1.40.0. PyTorch