AWS GPU AMI d'apprentissage profond PyTorch 2.6 (Ubuntu 22.04) - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS GPU AMI d'apprentissage profond PyTorch 2.6 (Ubuntu 22.04)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

  • Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6. $ {PATCH-VERSION} (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Instances prises en charge

L'AMI inclut les éléments suivants :

  • AWS Service pris en charge : Amazon EC2

  • Système d'exploitation : Ubuntu 22.04

  • Architecture de calcul : x86

  • Python :/opt/pytorch/bin/python

  • Pilote NVIDIA :

    • Pilote OSS Nvidia : 570.86.15

  • Stack NVIDIA CUDA12 8.1 :

    • Chemin d'installation de CUDA, NCCL et CudDN :/-12.6/ usr/local/cuda

    • CUDA par défaut : 12,6

      • CHEMIN/usr/local/cuda points to /usr/local/cuda-12.6/

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATH à avoir/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib

        • CHEMIN à avoir/usr/local/cuda/bin/:/usr/local/cuda/include/

    • Version NCCL du système compilé présente à l'adresse/usr/local/cuda/: 2.24.3

    • PyTorch Version NCCL compilée à partir de l'environnement PyTorch conda : 2.21.5

  • Lieu des tests NCCL :

    • all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • Pour exécuter les tests NCCL, LD_LIBRARY_PATH est déjà mis à jour avec les chemins nécessaires.

    • PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :

    • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH est mis à jour avec les chemins de version CUDA

    • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • Installateur EFA : 1.38.0

  • Nvidia GDRCopy : 2,4.1

  • Moteur Nvidia Transformer : v1.11.0

  • AWS NCCL OFI : 1.13.2-aws

    • Le chemin d'installation :/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libest ajouté à LD_LIBRARY_PATH.

    • Remarque : le PyTorch package est également livré avec un plugin AWS OFI NCCL lié dynamiquement en tant que aws-ofi-nccl-dlc package conda et PyTorch utilisera ce package au lieu du système AWS OFI NCCL.

  • AWS CLI v2 en tant qu'aws2 et AWS CLI v1 en tant qu'aws

  • Type de volume EBS : GP3

  • Version de Python : 3.11

  • Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avis

PyTorch Obsolète d'Anaconda Channel

À partir de la PyTorch version 2.6, Pytorch a abandonné le support de Conda (voir l'annonce officielle). Par conséquent, Pytorch 2.6 et versions ultérieures utiliseront les environnements virtuels Python. Pour activer le pytorch venv, veuillez utiliser la source/opt/pytorch/bin/activate

Instances P5/P5e :

  • DeviceIndex est unique à chacun NetworkCard et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1. Vous trouverez ci-dessous un exemple de commande de lancement d'instance EC2 P5 utilisant awscli, affiché NetworkCardIndex du numéro 0 à 31, 0 pour la première interface et 1 pour DeviceIndex les interfaces 31 restantes. DeviceIndex

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
  • La version du noyau est épinglée à l'aide de la commande : 

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau : 

    echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
  • Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-02-21

Nom de l'AMI : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.0 (Ubuntu 22.04) 20250220

Ajouté

  • Version initiale de la série de GPU AMI Deep Learning PyTorch 2.6 (Ubuntu 22.04). Incluant un environnement virtuel Python pytorch (source/opt/pytorch/bin/activate), complété par le pilote NVIDIA R570, CUDA = 12,6, cuDNN = 9,7, NCCL = 2,21,5 et EFA = 1,38,0. PyTorch