Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS AMI GPU di ARM64 base di deep learning (Ubuntu 22.04)
Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI
Formato del nome AMI
AMI AMI GPU Nvidia Driver OSS Deep Learning ARM64 (Ubuntu 22.04) $ {YYYY-MM-DD}
Istanze supportate EC2
G5g, P6e- GB2 00 (CUDA>=12.8 è supportato su P6e- 00) GB2
L'AMI include quanto segue:
AWS Servizio supportato: Amazon EC2
Sistema operativo: Ubuntu 22.04
Architettura di calcolo: ARM64
L'ultima versione disponibile è installata per i seguenti pacchetti:
Kernel Linux: 6. 8
FSx Lustro
Docker
AWS CLI v2 in/usr/bin/aws
NVIDIA DCGM
Toolkit per container Nvidia:
Comando di versione: -V nvidia-container-cli
Nvidia-docker2:
Comando di versione: versione nvidia-docker
Driver NVIDIA: 570.158.01
Pila NVIDIA CUDA 12.4, 12.5, 12.6, 12.8:
Directory di installazione CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda
Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/
Versione NCCL compilata:
Per la directory CUDA 12.4, versione NCCL compilata 2.22.3+ .4 CUDA12
Per la directory CUDA 12.5, è stata compilata la versione NCCL 2.22.3+ .5 CUDA12
Per la directory CUDA 12.6, è stata compilata la versione NCCL 2.24.3+ .6 CUDA12
Per la directory CUDA 12.8, è stata compilata la versione NCCL 2.27.5+ .8 CUDA12
CUDA predefinito: 12.8
PATH/usr/local/cudapunta a CUDA 12.8
Aggiornato di seguito le variabili di ambiente:
LD_LIBRARY_PATH da avere/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.42.0
GDRCopyNvidia: 2.5.1
AWS Il plugin OFI NCCL viene fornito con il programma di installazione EFA
I percorsi/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efavengono aggiunti a LD_LIBRARY_PATH.
AWS CLI v2 in/2 e v1 in/usr/local/bin/aws AWS CLI usr/bin/aws
Tipo di volume EBS: gp3
Python:/3.10 usr/bin/python
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output textInterroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
istanze P6e-00 GB2
Le istanze P6e- GB2 00 contengono 17 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"
Note
NVIDIA Container Toolkit 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Supporto Multi ENI
Ubuntu 22.04 imposta e configura automaticamente il routing dei sorgenti su più server NICs tramite cloud-init all'avvio iniziale. Se il flusso di lavoro include gli attaching/detaching ENI mentre un'istanza è interrotta, è necessario aggiungere una configurazione aggiuntiva ai dati utente cloud-init per garantire la corretta configurazione delle NIC durante questi eventi. Di seguito viene fornito un esempio della configurazione cloud.
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
Politica di supporto
Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning
Kernel
La versione del kernel viene bloccata utilizzando il comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-07-04
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250704
Aggiornato
È stato aggiunto il supporto all'istanza P6e- 00. EC2 GB2 Tieni presente che CUDA>=12.8 è supportato su P6e- 00 GB2
Aggiungi EFA 1.42.0
Driver Nvidia aggiornato dalla versione 570.133.20 alla 570.158.01
Stack CUDA 12.8 aggiornato con NCCL 2.27.5
Data di rilascio: 2025-04-24
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424
Aggiornato
Stack CUDA 12.8 aggiornato con NCCL 2.26.2
CUDA predefinito aggiornato da 12.6 a 12.8
CUDA 12.3 rimosso
Data di rilascio: 2025-03-03
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250303
Aggiornato
Driver Nvidia da 550.144.03 a 570.86.15
Il CUDA predefinito viene modificato da .1 a .6 CUDA12 CUDA12
Aggiunto
Directory CUDA di 12.4 con versione NCCL CUDA12 2.22.3+ .4 compilata e cuDNN 9.7.1.26
Directory CUDA di 12.5 con versione NCCL CUDA12 2.22.3+ .5 compilata e cuDNN 9.7.1.26
Directory CUDA di 12.6 con versione NCCL CUDA12 2.24.3+ .6 compilata e cuDNN 9.7.1.26
Directory CUDA di 12.8 con versione NCCL CUDA12 2.25.1+ .8 compilata e cuDNN 9.7.1.26
Rimosso
Directory CUDA 12.1 e 12.2
Data di rilascio: 2025-02-17
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214
Aggiornato
Aggiornato NVIDIA Container Toolkit dalla versione 1.17.3 alla versione 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Rimosso
Data di rilascio: 2025-01-17
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117
Aggiornato
Data di rilascio: 2024-10-23
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023
Aggiornato
Data di rilascio: 2024-06-06
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606
Aggiornato
Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08
Data di rilascio: 2024-05-15
Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240514
Aggiunto
Versione iniziale del Deep Learning ARM64 Base OSS DLAMI per Ubuntu 22.04