Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS GPU AMI PyTorch 2.4 con apprendimento approfondito (Ubuntu 22.04)
Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI
Formato del nome AMI
GPU AMI Nvidia Driver OSS con apprendimento approfondito 2.4 PyTorch . $ {PATCH_VERSION} (Ubuntu 22.04) $ {YYYY-MM-GG}
EC2 Istanze supportate
Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.
L'AMI include quanto segue:
AWS Servizio supportato: EC2
Sistema operativo: Ubuntu 22.04
Architettura di calcolo: x86
Python:/opt/conda/envs/pytorch/bin/python
Driver NVIDIA:
Driver del sistema operativo Nvidia: 550.144.03
CUDA12Pila NVIDIA 2.1:
Percorso di installazione di CUDA, NCCL e cuDDN:/-12.4/ usr/local/cuda
-
CUDA predefinito: 12.4
PERCORSO/-12.4/ usr/local/cuda points to /usr/local/cuda
-
Aggiornato sotto le variabili di ambiente:
LD_LIBRARY_PATH da avere/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
PERCORSO da avere//usr/local/cuda/bin/:/usr/local/cuda/include
Versione NCCL del sistema compilato presente in/usr/local/cuda/: 2.21.5
PyTorch Versione NCCL compilata dall'ambiente conda: 2.20.5 PyTorch
Luogo dei test NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
-
Per eseguire i test NCCL, LD_LIBRARY_PATH è già aggiornato con i percorsi necessari.
I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
LD_LIBRARY_PATH viene aggiornato con i percorsi della versione CUDA
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Programma di installazione EFA: 1.34.0
GDRCopyNvidia: 2.4.1
Motore Nvidia Transformer: v1.11.0
AWS OFI NCCL: 1.11.0-aws
Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib
Verifica il percorso per ring, message_transfer:/opt/aws-ofi-nccl/tests
Nota: il PyTorch pacchetto include anche il plug-in AWS OFI NCCL collegato dinamicamente come pacchetto conda e PyTorch utilizzerà quel aws-ofi-nccl-dlc pacchetto invece del sistema OFI NCCL. AWS
AWS CLI v2 come aws2 e v1 come aws AWS CLI
Tipo di volume EBS: gp3
Versione Python: 3.11
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
Istanze P5/P5e
DeviceIndex è unico per ciascuna NetworkCard e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1. Di seguito è riportato l'esempio del comando di avvio dell'istanza EC2 P5 che utilizza awscli visualizzato NetworkCardIndex dal numero 0-31 e DeviceIndex come 0 per la prima interfaccia e DeviceIndex come 1 per le restanti 31 interfacce.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Data di rilascio: 2025-02-17
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216
Aggiornato
Aggiornato NVIDIA Container Toolkit dalla versione 1.17.3 alla versione 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Data di rilascio: 2025-01-21
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119
Aggiornato
Data di rilascio: 2024-11-18
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116
Fixed
A causa di una modifica nel kernel Ubuntu per correggere un difetto nella funzionalità Kernel Address Space Layout Randomization (KASLR), le istanze G4Dn/G5 non sono in grado di inizializzare correttamente CUDA sul driver OSS Nvidia. Per mitigare questo problema, questo DLAMI include funzionalità che caricano dinamicamente il driver proprietario per le istanze G4Dn e G5. Attendi un breve periodo di inizializzazione per questo caricamento per garantire che le istanze siano in grado di funzionare correttamente.
Per verificare lo stato e l'integrità di questo servizio, puoi utilizzare i seguenti comandi:
sudo systemctl is-active dynamic_driver_load.service
active
Data di rilascio: 2024-10-16
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016
Aggiunto
Data di rilascio: 2024-09-30
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929
Aggiornato
Data di rilascio: 2024-09-26
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925
Aggiunto
Versione iniziale della serie Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04). Include un pytorch in ambiente conda abbinato a NVIDIA Driver R550, CUDA=12.4.1, cuDNN=8.9.7, NCCL=2.20.5 ed EFA=1.34.0. PyTorch