Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS AMI GPU di base di deep learning (Ubuntu 22.04)
Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI
Formato del nome AMI
AMI AMI GPU Nvidia Driver OSS Deep Learning (Ubuntu 22.04) $ {YYYY-MM-DD}
Istanze supportate EC2
Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.
L'AMI include quanto segue:
AWS Servizio supportato: Amazon EC2
Sistema operativo: Ubuntu 22.04
Architettura di calcolo: x86
L'ultima versione disponibile è installata per i seguenti pacchetti:
Kernel Linux: 6. 8
FSx Lustro
Docker
AWS CLI v2 in/usr/local/bin/aws2 e AWS CLI v1 in/usr/bin/aws
NVIDIA DCGM
Toolkit per container Nvidia:
Comando di versione: -V nvidia-container-cli
Nvidia-docker2:
Comando di versione: versione nvidia-docker
Driver NVIDIA: 570.133.20
Stack NVIDIA CUDA 12.4-12.6 e 12.8:
Directory di installazione CUDA, NCCL e cudDN:/-xx.x/ usr/local/cuda
Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/
Versione NCCL compilata: 2.26.5
CUDA predefinito: 12.8
PATH/usr/local/cudapunta a CUDA 12.8
Aggiornato di seguito le variabili di ambiente:
LD_LIBRARY_PATH da avere/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib
PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.40.0
GDRCopyNvidia: 2.5
AWS OFI NCCL: 1.14.2-aws
Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib
AWS CLI v2 in/2 e v1 in/usr/local/bin/aws AWS CLI usr/bin/aws
Tipo di volume EBS: gp3
Python:/3.10 usr/bin/python
NVMe Posizione dell'archivio delle istanze (sulle EC2 istanze supportate):/opt/dlami/nvme
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
NVIDIA Container Toolkit 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 31/01/2025)
EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.
Supporto Multi ENI
Ubuntu 22.04 imposta e configura automaticamente il routing dei sorgenti su più server NICss utilizzando cloud-init all'avvio iniziale. Se il flusso di lavoro include attaching/detaching l'interruzione di un'istanza, è necessario aggiungere una configurazione aggiuntiva ai dati utente cloud-init per garantire la corretta configurazione delle NIC ENIs durante questi eventi. Di seguito viene fornito un esempio della configurazione cloud.
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
Politica di supporto
Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning
EC2 istanze con più schede di rete
Molti tipi di istanze che supportano EFA hanno anche più schede di rete.
DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.
Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.
Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.
Istanze P6-B200
P6-B200 contiene 8 schede di interfaccia di rete e può essere avviato utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
istanze P5en
P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5/P5e
Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versione del kernel viene bloccata utilizzando il comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque eseguire l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-05-16
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516
Aggiunto
È stato EC2 aggiunto il supporto per le istanze P6-B200
Aggiornato
EFA Installer aggiornato dalla versione 1.39.0 alla 1.40.0
Aggiorna il plugin AWS OFI NCCL dalla versione 1.13.0-aws alla 1.14.2-aws
Versione NCCL compilata aggiornata dalla versione 2.22.3 alla 2.26.5
Versione CUDA predefinita aggiornata dalla versione 12.6 alla 12.8
Versione Nvidia DCGM aggiornata dalla 3.3.9 alla 4.4.3
Data di rilascio: 2025-05-05
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Aggiornato
GDRCopy Aggiornato da 2.4.1 a 2.5.1
Data di rilascio: 24-04-2025
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424
Aggiornato
Data di rilascio: 2025-02-17
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214
Aggiornato
Aggiornato NVIDIA Container Toolkit dalla versione 1.17.3 alla versione 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Rimosso
Data di rilascio: 2025-02-07
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205
Aggiunto
Aggiunta la versione 12.6 del toolkit CUDA nella directory/-12.6 usr/local/cuda
Rimosso
Le versioni CUDA 12.1 e 12.2 sono state rimosse da questo DLAMI. I clienti possono installare queste versioni da NVIDIA utilizzando il link seguente
Data di rilascio: 2025-01-31
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131
Aggiornato
Versione EFA aggiornata da 1.37.0 a 1.38.0
EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.
Nvidia Container Toolkit aggiornato da 1.17.3 a 1.17.4
Data di rilascio: 2025-01-17
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117
Aggiornato
Data di rilascio: 2024-11-18
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115
Aggiunto
È stato aggiunto il FSx pacchetto Amazon per il supporto Lustre.
Fixed
-
A causa di una modifica nel kernel Ubuntu per risolvere un difetto nella funzionalità Kernel Address Space Layout Randomization (KASLR), le istanze G4Dn/G5 non sono in grado di inizializzare correttamente CUDA sul driver OSS Nvidia. Per mitigare questo problema, questo DLAMI include funzionalità che caricano dinamicamente il driver proprietario per le istanze G4Dn e G5. Attendi un breve periodo di inizializzazione per questo caricamento per garantire che le istanze siano in grado di funzionare correttamente.
Per verificare lo stato e l'integrità di questo servizio, puoi utilizzare il seguente comando:
sudo systemctl is-active dynamic_driver_load.service
active
Data di rilascio: 2024-10-23
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023
Aggiornato
Data di rilascio: 2024-10-01
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930
Aggiornato
Driver Nvidia e Fabric Manager aggiornati dalla versione 535.183.01 a 550.90.07
Versione EFA aggiornata da 1.32.0 a 1.34.0
NCCL aggiornato all'ultima versione 2.22.3 per tutte le versioni CUDA
CUDA 12.1, 12.2 aggiornato da 2.18.5+ 2. CUDA12
CUDA 12.3 aggiornato dalla versione CUDA12 2.21.5+ .4
Aggiunto
Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda
Aggiunto il supporto per le istanze P5e. EC2
Data di rilascio: 2024-08-19
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816
Aggiunto
Data di rilascio: 2024-06-06
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606
Aggiornato
Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08
Data di rilascio: 2024-05-15
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513
Rimosso
Il supporto di Amazon FSx for Lustre è stato rimosso in questa versione a causa dell'incompatibilità con le ultime versioni del kernel di Ubuntu 22.04. Il supporto FSx per Lustre verrà ripristinato una volta supportata l'ultima versione del kernel. I clienti che richiedono FSx Lustre devono continuare a utilizzare l'AMI GPU Deep Learning Base (Ubuntu 20.04
).
Data di rilascio: 2024-04-29
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429
Aggiunto
Versione iniziale del Deep Learning Base OSS DLAMI per Ubuntu 22.04