AWS AMI GPU di base di deep learning (Ubuntu 22.04)

Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI

Formato del nome AMI

AMI AMI GPU Nvidia Driver OSS Deep Learning (Ubuntu 22.04) $ {YYYY-MM-DD}

Istanze supportate EC2

Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.

L'AMI include quanto segue:

AWS Servizio supportato: Amazon EC2
Sistema operativo: Ubuntu 22.04
Architettura di calcolo: x86
L'ultima versione disponibile è installata per i seguenti pacchetti:
- Kernel Linux: 6. 8
- FSx Lustro
- Docker
- AWS CLI v2 in/usr/local/bin/aws2 e AWS CLI v1 in/usr/bin/aws
- NVIDIA DCGM
- Toolkit per container Nvidia:
  - Comando di versione: -V nvidia-container-cli
- Nvidia-docker2:
  - Comando di versione: versione nvidia-docker
Driver NVIDIA: 570.172.08
Stack NVIDIA CUDA 12.4-12.6 e 12.8:
- Directory di installazione CUDA, NCCL e cudDN:/-xx.x/ usr/local/cuda
  - Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/
- Versione NCCL compilata: 2.26.5
- CUDA predefinito: 12.8
  - PATH/usr/local/cudapunta a CUDA 12.8
  - Aggiornato di seguito le variabili di ambiente:
    
    LD_LIBRARY_PATH da avere/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib
    PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
    Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.43.1
GDRCopyNvidia: 2.5.1
AWS Il plugin OFI NCCL viene fornito con il programma di installazione EFA
- I percorsi/opt/amazon/ofi-nccl/lib/x86_64-linux-gnu and /opt/amazon/ofi-nccl/efavengono aggiunti a LD_LIBRARY_PATH.
AWS CLI v2 in/2 e v1 in/usr/local/bin/aws AWS CLI usr/bin/aws
Tipo di volume EBS: gp3
Python:/3.10 usr/bin/python
NVMe Posizione dell'archivio delle istanze (sulle EC2 istanze supportate):/opt/dlami/nvme

Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

Driver OSS Nvidia:


SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \
    aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/$SSM_PARAMETER  \
    --query "Parameter.Value" \
    --output text

Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

Driver OSS Nvidia:


aws ec2 describe-images --region us-east-1 \
      --owners amazon \
      --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
      --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
      --output text

Note

NVIDIA Container Toolkit 1.17.4

Nella versione 1.17.4 di Container Toolkit il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 31/01/2025)

EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.

Supporto Multi ENI

Ubuntu 22.04 imposta e configura automaticamente il routing dei sorgenti su più server NICss utilizzando cloud-init all'avvio iniziale. Se il flusso di lavoro include attaching/detaching l'interruzione di un'istanza, è necessario aggiungere una configurazione aggiuntiva ai dati utente cloud-init per garantire la corretta configurazione delle NIC ENIs durante questi eventi. Di seguito viene fornito un esempio della configurazione cloud.
Fai riferimento a questa documentazione Canonical qui per ulteriori informazioni su come configurare la configurazione cloud per le tue istanze - -/https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automaticallysetup-multiple-nics


#cloud-config
# apply network config on every boot and hotplug event
updates:
  network:
    when: ['boot', 'hotplug']

Politica di supporto

Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning o per ridurre le dimensioni dell'AMI in una versione futura, senza preavviso. Rimuoviamo le versioni CUDA AMIs se non vengono utilizzate da nessuna versione del framework supportata.

EC2 istanze con più schede di rete

Molti tipi di istanze che supportano EFA hanno anche più schede di rete.
DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.
- Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.
- Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.
- Per ulteriori informazioni, consulta la guida EFA qui.

Istanze P6-B200

P6-B200 contiene 8 schede di interfaccia di rete e può essere avviato utilizzando il seguente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

istanze P5en

P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ....
     "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Istanze P5/P5e

Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ...
     "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

La versione del kernel viene bloccata utilizzando il comando:


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque eseguire l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
```
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-07-22

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250722

Aggiornato

Driver Nvidia aggiornato da 570.158.01 a 570.172.08 per correggere i CVE presenti nel Nvidia Security Bulletin di luglio

Data di rilascio: 2025-05-16

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516

Aggiunto

È stato EC2 aggiunto il supporto per le istanze P6-B200

Aggiornato

EFA Installer aggiornato dalla versione 1.39.0 alla 1.40.0
Aggiorna il plugin AWS OFI NCCL dalla versione 1.13.0-aws alla 1.14.2-aws
Versione NCCL compilata aggiornata dalla versione 2.22.3 alla 2.26.5
Versione CUDA predefinita aggiornata dalla versione 12.6 alla 12.8
Versione Nvidia DCGM aggiornata dalla 3.3.9 alla 4.4.3

Data di rilascio: 2025-05-05

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Aggiornato

GDRCopy Aggiornato da 2.4.1 a 2.5.1

Data di rilascio: 24-04-2025

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Aggiornato

Driver Nvidia aggiornato dalla versione 570.124.06 alla 570.133.20 all'indirizzo riportato nel NVIDIA GPU Display Driver Security Bulletin di aprile 2025 CVEs

Data di rilascio: 2025-02-17

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Aggiornato

NVIDIA Container Toolkit aggiornato dalla versione 1.17.3 alla versione 1.17.4
- Per ulteriori informazioni, consulta la pagina delle note di rilascio qui:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
- Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Rimosso

Sono state rimosse le librerie di spazio utente cuobj e nvdisasm fornite dal toolkit NVIDIA CUDA e presenti nel NVIDIA CUDA Toolkit Security Bulletin del 18 febbraio 2025 CVEs

Data di rilascio: 2025-02-07

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205

Aggiunto

Aggiunta la versione 12.6 del toolkit CUDA nella directory/-12.6 usr/local/cuda

Rimosso

Le versioni CUDA 12.1 e 12.2 sono state rimosse da questo DLAMI. I clienti possono installare queste versioni da NVIDIA utilizzando il link seguente
- https://developer.nvidia.com/cuda-toolkit-archive

Data di rilascio: 2025-01-31

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131

Aggiornato

Versione EFA aggiornata da 1.37.0 a 1.38.0
- EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.
Nvidia Container Toolkit aggiornato da 1.17.3 a 1.17.4

Data di rilascio: 2025-01-17

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Aggiornato

Driver Nvidia aggiornato dalla versione 550.127.05 alla 550.144.03 come indicato nel NVIDIA GPU Display Driver Security Bulletin di gennaio 2025 CVEs

Data di rilascio: 2024-11-18

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115

Aggiunto

È stato aggiunto il FSx pacchetto Amazon per il supporto di Lustre.

Fixed

A causa di una modifica nel kernel Ubuntu per risolvere un difetto nella funzionalità Kernel Address Space Layout Randomization (KASLR), le istanze G4Dn/G5 non sono in grado di inizializzare correttamente CUDA sul driver OSS Nvidia. Per mitigare questo problema, questo DLAMI include funzionalità che caricano dinamicamente il driver proprietario per le istanze G4Dn e G5. Attendi un breve periodo di inizializzazione per questo caricamento per garantire che le istanze siano in grado di funzionare correttamente.

Per verificare lo stato e l'integrità di questo servizio, puoi utilizzare il seguente comando:


sudo systemctl is-active dynamic_driver_load.service
active

Data di rilascio: 2024-10-23

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Aggiornato

Driver Nvidia aggiornato dalla versione 550.90.07 alla 550.127.05 all'indirizzo riportato nel NVIDIA GPU Display Security Bulletin di ottobre 2024 CVEs

Data di rilascio: 2024-10-01

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930

Aggiornato

Driver Nvidia e Fabric Manager aggiornati dalla versione 535.183.01 a 550.90.07
Nvidia Container Toolkit è stato aggiornato dalla versione 1.16.1 alla 1.16.2, risolvendo la vulnerabilità di sicurezza CVE-2024-0133.
Versione EFA aggiornata da 1.32.0 a 1.34.0
NCCL aggiornato all'ultima versione 2.22.3 per tutte le versioni CUDA
- CUDA 12.1, 12.2 aggiornato da 2.18.5+ 2. CUDA12
- CUDA 12.3 aggiornato dalla versione CUDA12 2.21.5+ .4

Aggiunto

Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda
Aggiunto il supporto per le istanze P5e. EC2

Data di rilascio: 2024-08-19

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816

Aggiunto

Aggiunto il supporto per l'istanza G6e. EC2

Data di rilascio: 2024-06-06

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Aggiornato

Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08

Data di rilascio: 2024-05-15

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513

Rimosso

Il supporto di Amazon FSx for Lustre è stato rimosso in questa versione a causa dell'incompatibilità con le ultime versioni del kernel di Ubuntu 22.04. Il supporto FSx per Lustre verrà ripristinato una volta supportata l'ultima versione del kernel. I clienti che richiedono FSx Lustre devono continuare a utilizzare l'AMI GPU Deep Learning Base (Ubuntu 20.04).

Data di rilascio: 2024-04-29

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429

Aggiunto

Versione iniziale del Deep Learning Base OSS DLAMI per Ubuntu 22.04

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

AMI GPU di base (Ubuntu 24.04)

AMI GPU di base (Amazon Linux 2)