AWS AMI GPU di base per Deep Learning (Ubuntu 24.04) - AWS Deep Learning AMIs

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS AMI GPU di base per Deep Learning (Ubuntu 24.04)

Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI

Formato del nome AMI

  • AMI AMI GPU Nvidia Driver OSS Deep Learning (Ubuntu 24.04) $ {YYYY-MM-DD}

Istanze supportate EC2

  • Consulta la sezione Modifiche importanti a DLAMI.

  • Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200.

L'AMI include quanto segue:

  • AWS Servizio supportato: Amazon EC2

  • Sistema operativo: Ubuntu 24.04

  • Architettura di calcolo: x86

  • L'ultima versione disponibile è installata per i seguenti pacchetti:

    • Kernel Linux: 6. 8

    • FSx Lustro

    • Docker

    • AWS CLI v2 in/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit per container Nvidia:

      • Comando di versione: -V nvidia-container-cli

    • Nvidia-docker2:

      • Comando di versione: versione nvidia-docker

  • Driver NVIDIA: 570.133.20

  • Stack NVIDIA CUDA 12.6 e 12.8:

    • Directory di installazione CUDA, NCCL e CUDDN:/-xx.x/ usr/local/cuda

      • Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/

    • Versione NCCL compilata: 2.25.1

    • CUDA predefinito: 12.8

      • PATH/usr/local/cudapunta a CUDA 12.8

      • Aggiornato di seguito le variabili di ambiente:

        • LD_LIBRARY_PATH da avere/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include

        • Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.

  • Programma di installazione EFA: 1.40.0

  • GDRCopyNvidia: 2.5.1

  • AWS OFI NCCL: 1.14.2-aws

    • Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib

  • AWS CLI v2 in/usr/bin/aws

  • Tipo di volume EBS: gp3

  • Python:/3.12 usr/bin/python

  • NVMe Posizione dell'archivio delle istanze (sulle EC2 istanze supportate):/opt/dlami/nvme

  • Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Note

Politica di supporto

Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning o per ridurre le dimensioni dell'AMI in una versione futura, senza preavviso. Rimuoviamo le versioni CUDA AMIs se non vengono utilizzate da nessuna versione del framework supportata.

EC2 istanza con più schede di rete
  • Molti tipi di istanze che supportano EFA hanno anche più schede di rete.

  • DeviceIndex è unica per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di ENIs per. NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.

    • Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.

    • Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.

    • Per ulteriori informazioni, consulta la guida EFA qui.

Istanze P6-B200

Le istanze P6-B200 contengono 8 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
istanze P5en

P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5/P5e

Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versione del kernel viene bloccata utilizzando il comando:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque eseguire l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-05-22

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522

Aggiunto

Aggiornato

  • EFA Installer aggiornato dalla versione 1.40.0 alla 1.41.0

  • Versione NCCL compilata aggiornata dalla versione 2.25.1 alla 2.26.5

  • Versione Nvidia DCGM aggiornata dalla 3.3.9 alla 4.4.3

Data di rilascio: 2025-05-13

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513

Aggiunto

  • Versione iniziale di Deep Learning Base OSS DLAMI per Ubuntu 24.04