AWS AMI GPU di base di deep learning (Ubuntu 22.04) - AWS Deep Learning AMIs

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS AMI GPU di base di deep learning (Ubuntu 22.04)

Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI

Formato del nome AMI

  • AMI AMI GPU Nvidia Driver OSS Deep Learning (Ubuntu 22.04) $ {YYYY-MM-DD}

Istanze supportate EC2

  • Consulta la sezione Modifiche importanti a DLAMI.

  • Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.

L'AMI include quanto segue:

  • AWS Servizio supportato: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Architettura di calcolo: x86

  • L'ultima versione disponibile è installata per i seguenti pacchetti:

    • Kernel Linux: 6. 8

    • FSx Lustro

    • Docker

    • AWS CLI v2 in/usr/local/bin/aws2 e AWS CLI v1 in/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit per container Nvidia:

      • Comando di versione: -V nvidia-container-cli

    • Nvidia-docker2:

      • Comando di versione: versione nvidia-docker

  • Driver NVIDIA: 570.133.20

  • Stack NVIDIA CUDA 12.4-12.6 e 12.8:

    • Directory di installazione CUDA, NCCL e cudDN:/-xx.x/ usr/local/cuda

      • Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/

    • Versione NCCL compilata: 2.26.5

    • CUDA predefinito: 12.8

      • PATH/usr/local/cudapunta a CUDA 12.8

      • Aggiornato di seguito le variabili di ambiente:

        • LD_LIBRARY_PATH da avere/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include

        • Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.

  • Programma di installazione EFA: 1.40.0

  • GDRCopyNvidia: 2.5

  • AWS OFI NCCL: 1.14.2-aws

    • Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib

  • AWS CLI v2 in/2 e v1 in/usr/local/bin/aws AWS CLI usr/bin/aws

  • Tipo di volume EBS: gp3

  • Python:/3.10 usr/bin/python

  • NVMe Posizione dell'archivio delle istanze (sulle EC2 istanze supportate):/opt/dlami/nvme

  • Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Note

NVIDIA Container Toolkit 1.17.4

Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 31/01/2025)

EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.

Supporto Multi ENI
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

Politica di supporto

Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning o per ridurre le dimensioni dell'AMI in una versione futura, senza preavviso. Rimuoviamo le versioni CUDA AMIs se non vengono utilizzate da nessuna versione del framework supportata.

EC2 istanze con più schede di rete
  • Molti tipi di istanze che supportano EFA hanno anche più schede di rete.

  • DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.

    • Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.

    • Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.

    • Per ulteriori informazioni, consulta la guida EFA qui.

Istanze P6-B200

P6-B200 contiene 8 schede di interfaccia di rete e può essere avviato utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
istanze P5en

P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5/P5e

Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versione del kernel viene bloccata utilizzando il comando:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque eseguire l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-05-16

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516

Aggiunto

  • È stato EC2 aggiunto il supporto per le istanze P6-B200

Aggiornato

  • EFA Installer aggiornato dalla versione 1.39.0 alla 1.40.0

  • Aggiorna il plugin AWS OFI NCCL dalla versione 1.13.0-aws alla 1.14.2-aws

  • Versione NCCL compilata aggiornata dalla versione 2.22.3 alla 2.26.5

  • Versione CUDA predefinita aggiornata dalla versione 12.6 alla 12.8

  • Versione Nvidia DCGM aggiornata dalla 3.3.9 alla 4.4.3

Data di rilascio: 2025-05-05

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Aggiornato

  • GDRCopy Aggiornato da 2.4.1 a 2.5.1

Data di rilascio: 24-04-2025

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Aggiornato

Data di rilascio: 2025-02-17

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Aggiornato

Rimosso

Data di rilascio: 2025-02-07

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205

Aggiunto

  • Aggiunta la versione 12.6 del toolkit CUDA nella directory/-12.6 usr/local/cuda

Rimosso

Data di rilascio: 2025-01-31

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131

Aggiornato

  • Versione EFA aggiornata da 1.37.0 a 1.38.0

    • EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.

  • Nvidia Container Toolkit aggiornato da 1.17.3 a 1.17.4

Data di rilascio: 2025-01-17

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Aggiornato

Data di rilascio: 2024-11-18

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115

Aggiunto

  • È stato aggiunto il FSx pacchetto Amazon per il supporto Lustre.

Fixed

  • A causa di una modifica nel kernel Ubuntu per risolvere un difetto nella funzionalità Kernel Address Space Layout Randomization (KASLR), le istanze G4Dn/G5 non sono in grado di inizializzare correttamente CUDA sul driver OSS Nvidia. Per mitigare questo problema, questo DLAMI include funzionalità che caricano dinamicamente il driver proprietario per le istanze G4Dn e G5. Attendi un breve periodo di inizializzazione per questo caricamento per garantire che le istanze siano in grado di funzionare correttamente.

    Per verificare lo stato e l'integrità di questo servizio, puoi utilizzare il seguente comando:

sudo systemctl is-active dynamic_driver_load.service active

Data di rilascio: 2024-10-23

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Aggiornato

Data di rilascio: 2024-10-01

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930

Aggiornato

Aggiunto

  • Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda

  • Aggiunto il supporto per le istanze P5e. EC2

Data di rilascio: 2024-08-19

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816

Aggiunto

Data di rilascio: 2024-06-06

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Aggiornato

  • Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08

Data di rilascio: 2024-05-15

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513

Rimosso

  • Il supporto di Amazon FSx for Lustre è stato rimosso in questa versione a causa dell'incompatibilità con le ultime versioni del kernel di Ubuntu 22.04. Il supporto FSx per Lustre verrà ripristinato una volta supportata l'ultima versione del kernel. I clienti che richiedono FSx Lustre devono continuare a utilizzare l'AMI GPU Deep Learning Base (Ubuntu 20.04).

Data di rilascio: 2024-04-29

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429

Aggiunto

  • Versione iniziale del Deep Learning Base OSS DLAMI per Ubuntu 22.04