Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS AMI GPU di base di deep learning (Amazon Linux 2023)
Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.
Formato del nome AMI
AMI AMI GPU Nvidia Driver OSS di deep learning (Amazon Linux 2023) $ {YYYY-MM-DD}
Istanze supportate EC2
Consulta la sezione Modifiche importanti a DLAMI
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200
L'AMI include quanto segue:
AWS Servizio supportato: Amazon EC2
Sistema operativo: Amazon Linux 2023
Architettura di calcolo: x86
L'ultima versione disponibile è installata per i seguenti pacchetti:
Kernel Linux: 6.1.
FSx Lustro
NVIDIA GDS
Docker
AWS CLI v2 a/usr/local/bin/aws2 e AWS CLI v1 a/usr/bin/aws
NVIDIA DCGM
Toolkit per container Nvidia:
Comando di versione: -V nvidia-container-cli
Nvidia-docker2:
Comando di versione: versione nvidia-docker
Driver NVIDIA: 570.133.20
Stack NVIDIA CUDA 12.4-12.6 e 12.8:
Directory di installazione CUDA, NCCL e cudDN:/-xx.x/ usr/local/cuda
Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/
Versione NCCL compilata: 2.26.5
CUDA predefinito: 12.8
PATH/usr/local/cudapunta a CUDA 12.8
Aggiornato di seguito le variabili di ambiente:
LD_LIBRARY_PATH da avere/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib
PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.40.0
GDRCopyNvidia: 2.5
AWS OFI NCCL: 1.14.2-aws
AWS OFI NCCL ora supporta più versioni NCCL con un'unica build
Il percorso di installazione:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libviene aggiunto a LD_LIBRARY_PATH.
AWS CLI v2 in/2 e v1 in/usr/local/bin/aws AWS CLI usr/bin/aws
Tipo di volume EBS: gp3
Python:/3.9 usr/bin/python
NVMe Posizione dell'archivio delle istanze (sulle EC2 istanze supportate):/opt/dlami/nvme
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
NVIDIA Container Toolkit 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Politica di supporto
Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning
Istanze P6-B200
Le istanze P6-B200 contengono 8 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
istanze P5en
Le istanze P5en contengono 16 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5/P5e
Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
-
La versione del kernel viene bloccata utilizzando il comando:
sudo dnf versionlock kernel*
-
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque eseguire l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
sudo dnf versionlock delete kernel* sudo dnf update -y
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-05-15
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515
Aggiunto
Aggiornato
EFA Installer aggiornato dalla versione 1.38.1 alla 1.40.0
GDRCopy Aggiornato dalla versione 2.4 alla 2.5
Plugin AWS OFI NCCL aggiornato dalla versione 1.13.0-aws a 1.14.2-aws
Versione NCCL compilata aggiornata dalla versione 2.25.1 alla 2.26.5
Versione CUDA predefinita aggiornata dalla versione 12.6 alla 12.8
Versione Nvidia DCGM aggiornata dalla 3.3.9 alla 4.4.3
Data di rilascio: 2025-04-22
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421
Aggiornato
Data di rilascio: 2025-03-31
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328
Aggiunto
È stato aggiunto il supporto per NVIDIA GPU
Direct Storage (GDS)
Data di rilascio: 2025-02-17
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250215
Aggiornato
NVIDIA Container Toolkit aggiornato dalla versione 1.17.3 alla versione 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Rimosso
Data di rilascio: 2025-02-05
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205
Aggiunto
Aggiunta la versione 12.6 del toolkit CUDA nella directory/-12.6 usr/local/cuda
Aggiunto il supporto per le istanze G5 EC2
Rimosso
Le versioni CUDA 12.1 e 12.2 sono state rimosse da questo DLAMI. I clienti che richiedono queste versioni del toolkit CUDA possono installarle direttamente da NVIDIA utilizzando il link seguente
Data di rilascio: 2025-02-03
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131
Aggiornato
Versione EFA aggiornata da 1.37.0 a 1.38.0
EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.
Nvidia Container Toolkit aggiornato da 1.17.3 a 1.17.4
Data di rilascio: 2025-01-08
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107
Aggiornato
Data di rilascio: 2024-12-09
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206
Aggiornato
Nvidia Container Toolkit aggiornato dalla versione 1.17.0 alla 1.17.3
Data di rilascio: 2024-11-21
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121
Aggiunto
È stato aggiunto il supporto per le istanze P5en. EC2
Aggiornato
EFA Installer aggiornato dalla versione 1.35.0 alla 1.37.0
Aggiorna il plugin AWS OFI NCCL dalla versione 1.121-aws a 1.13.0-aws
Data di rilascio: 2024-10-30
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030
Aggiunto
Versione iniziale di Deep Learning Base OSS DLAMI per Amazon Linux 2023
Problemi noti
Al momento, questo DLAMI non supporta le istanze G4dn e G5 EC2 . AWS è a conoscenza di un'incompatibilità che può causare errori di inizializzazione CUDA, che interessano entrambe le famiglie di istanze G4dn e G5 quando si utilizzano i driver NVIDIA open source insieme a una versione del kernel Linux 6.1 o successiva. Questo problema riguarda, tra le altre, distribuzioni Linux come Amazon Linux 2023, Ubuntu 22.04 o versioni successive o SUSE Linux Enterprise Server 15 SP6 o versioni successive.