Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS GPU AMI PyTorch 2.5 con apprendimento approfondito (Amazon Linux 2023)
Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.
Formato del nome AMI
GPU AMI Nvidia Driver OSS con apprendimento approfondito PyTorch 2.5.1 (Amazon Linux 2023) $ {YYYY-MM-DD}
Istanze supportate EC2
Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
L'AMI include quanto segue:
AWS Servizio supportato: EC2
Sistema operativo: Amazon Linux 2023
Architettura di calcolo: x86
Stack NVIDIA 4.4 CUDA12:
Percorso di installazione di CUDA, NCCL e cuDDN:/-12.4/ usr/local/cuda
-
CUDA predefinito: 12.4
PERCORSO/-12.4/ usr/local/cuda points to /usr/local/cuda
-
Aggiornato sotto le variabili di ambiente:
LD_LIBRARY_PATH da avere/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
PERCORSO da avere//usr/local/cuda/bin/:/usr/local/cuda/include
Versione NCCL compilata per 12.4:2.21.5
Luogo dei test NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
-
Per eseguire i test NCCL, LD_LIBRARY_PATH è già aggiornato con i percorsi necessari.
I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
LD_LIBRARY_PATH viene aggiornato con i percorsi della versione CUDA
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Programma di installazione EFA: 1.38.0
GDRCopyNvidia: 2.4.1
AWS OFI NCCL: 1.13.2-aws
AWS OFI NCCL ora supporta più versioni NCCL con un'unica build
Il percorso di installazione:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libviene aggiunto a LD_LIBRARY_PATH.
Verifica il percorso per ring, message_transfer:/opt/aws-ofi-nccl/tests
Versione Python: 3.11
Python:/opt/conda/envs/pytorch/bin/python
Driver NVIDIA: 560.35.03
AWS CLI v2 in/usr/bin/aws
Tipo di volume EBS: gp3
NVMe Posizione dell'Instance Store (sulle EC2 istanze supportate):/opt/dlami/nvme
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
Istanze P5/P5e:
DeviceIndex è unico per ciascuno NetworkCard e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1. Di seguito è riportato l'esempio del comando di avvio dell'istanza EC2 P5 che utilizza awscli visualizzato NetworkCardIndex dal numero 0-31 e DeviceIndex come 0 per la prima interfaccia e DeviceIndex come 1 per le restanti 31 interfacce.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versione del kernel viene bloccata utilizzando il comando:
sudo dnf versionlock kernel*
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
sudo dnf versionlock delete kernel* sudo dnf update -y
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-02-17
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216
Aggiornato
NVIDIA Container Toolkit aggiornato dalla versione 1.17.3 alla versione 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Rimosso
Data di rilascio: 2025-01-08
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107
Aggiunto
È stato aggiunto il supporto per le istanze G4dn
.
Data di rilascio: 2024-11-21
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120
Aggiunto
Versione iniziale di Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 per Amazon Linux 2023
Problemi noti
Al momento, questo DLAMI non supporta le istanze G4dn e G5 EC2 . AWS è a conoscenza di un'incompatibilità che può causare errori di inizializzazione CUDA, che interessano entrambe le famiglie di istanze G4dn e G5 quando si utilizzano i driver NVIDIA open source insieme a una versione del kernel Linux 6.1 o successiva. Questo problema riguarda, tra le altre, distribuzioni Linux come Amazon Linux 2023, Ubuntu 22.04 o versioni successive o SUSE Linux Enterprise Server 15 SP6 o versioni successive.