Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS AMI GPU di base per Deep Learning (Ubuntu 24.04)
Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI
Formato del nome AMI
AMI AMI GPU Nvidia Driver OSS Deep Learning (Ubuntu 24.04) $ {YYYY-MM-DD}
Istanze supportate EC2
Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200.
L'AMI include quanto segue:
AWS Servizio supportato: Amazon EC2
Sistema operativo: Ubuntu 24.04
Architettura di calcolo: x86
L'ultima versione disponibile è installata per i seguenti pacchetti:
Kernel Linux: 6. 8
FSx Lustro
Docker
AWS CLI v2 in/usr/bin/aws
NVIDIA DCGM
Toolkit per container Nvidia:
Comando di versione: -V nvidia-container-cli
Nvidia-docker2:
Comando di versione: versione nvidia-docker
Driver NVIDIA: 570.133.20
Stack NVIDIA CUDA 12.6 e 12.8:
Directory di installazione CUDA, NCCL e CUDDN:/-xx.x/ usr/local/cuda
Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/
Versione NCCL compilata: 2.25.1
CUDA predefinito: 12.8
PATH/usr/local/cudapunta a CUDA 12.8
Aggiornato di seguito le variabili di ambiente:
LD_LIBRARY_PATH da avere/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.40.0
GDRCopyNvidia: 2.5.1
AWS OFI NCCL: 1.14.2-aws
Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib
AWS CLI v2 in/usr/bin/aws
Tipo di volume EBS: gp3
Python:/3.12 usr/bin/python
NVMe Posizione dell'archivio delle istanze (sulle EC2 istanze supportate):/opt/dlami/nvme
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
Politica di supporto
Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning
EC2 istanza con più schede di rete
Molti tipi di istanze che supportano EFA hanno anche più schede di rete.
DeviceIndex è unica per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di ENIs per. NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.
Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.
Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.
Istanze P6-B200
Le istanze P6-B200 contengono 8 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
istanze P5en
P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5/P5e
Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versione del kernel viene bloccata utilizzando il comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque eseguire l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-05-22
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522
Aggiunto
È stato EC2 aggiunto
il supporto per le istanze P6-B200
Aggiornato
EFA Installer aggiornato dalla versione 1.40.0 alla 1.41.0
Versione NCCL compilata aggiornata dalla versione 2.25.1 alla 2.26.5
Versione Nvidia DCGM aggiornata dalla 3.3.9 alla 4.4.3
Data di rilascio: 2025-05-13
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513
Aggiunto
Versione iniziale di Deep Learning Base OSS DLAMI per Ubuntu 24.04