Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS GPU AMI PyTorch 2.4 con apprendimento approfondito (Ubuntu 22.04)
Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI
Formato del nome AMI
-
GPU AMI Nvidia Driver OSS con apprendimento approfondito 2.4 PyTorch . $ {PATCH_VERSION} (Ubuntu 22.04) $ {YYYY-MM-GG}
EC2 Istanze supportate
-
Consulta la sezione Modifiche importanti a DLAMI.
-
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.
L'AMI include quanto segue:
-
AWS Servizio supportato: EC2
-
Sistema operativo: Ubuntu 22.04
-
Architettura di calcolo: x86
-
Python:/opt/conda/envs/pytorch/bin/python
-
Driver NVIDIA:
-
Driver del sistema operativo Nvidia: 550.144.03
-
-
CUDA12Pila NVIDIA 2.1:
-
Percorso di installazione di CUDA, NCCL e cuDDN:/-12.4/ usr/local/cuda
-
CUDA predefinito: 12.4
-
PERCORSO/-12.4/ usr/local/cuda points to /usr/local/cuda
-
Aggiornato sotto le variabili di ambiente:
-
LD_LIBRARY_PATH da avere/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
-
PERCORSO da avere//usr/local/cuda/bin/:/usr/local/cuda/include
-
-
-
Versione NCCL del sistema compilato presente in/usr/local/cuda/: 2.21.5
-
PyTorch Versione NCCL compilata dall'ambiente conda: 2.20.5 PyTorch
-
-
Luogo dei test NCCL:
-
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
-
Per eseguire i test NCCL, LD_LIBRARY_PATH è già aggiornato con i percorsi necessari.
-
I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
-
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
-
-
LD_LIBRARY_PATH viene aggiornato con i percorsi della versione CUDA
-
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
-
-
-
Programma di installazione EFA: 1.34.0
-
GDRCopyNvidia: 2.4.1
-
Motore Nvidia Transformer: v1.11.0
-
AWS Plugin OFI NCCL: viene installato come parte di EFA Installer-AWS
-
Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib
-
Verifica il percorso per ring, message_transfer:/opt/aws-ofi-nccl/tests
-
Nota: il PyTorch pacchetto include anche il plug-in AWS OFI NCCL collegato dinamicamente come pacchetto conda e PyTorch utilizzerà quel aws-ofi-nccl-dlc pacchetto invece del sistema OFI NCCL. AWS
-
-
AWS CLI v2 come aws2 e v1 come aws AWS CLI
-
Tipo di volume EBS: gp3
-
Versione Python: 3.11
-
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
-
Driver OSS Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
-
-
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
-
Driver OSS Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
-
Note
Istanze P5/P5e
-
DeviceIndex è unico per ciascuna NetworkCard e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1. Di seguito è riportato l'esempio del comando di avvio dell'istanza EC2 P5 che utilizza awscli visualizzato NetworkCardIndex dal numero 0-31 e DeviceIndex come 0 per la prima interfaccia e DeviceIndex come 1 per le restanti 31 interfacce.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Data di rilascio: 2025-02-17
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216
Aggiornato
-
Aggiornato NVIDIA Container Toolkit dalla versione 1.17.3 alla versione 1.17.4
-
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Data di rilascio: 2025-01-21
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119
Aggiornato
Data di rilascio: 2024-11-18
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116
Fixed
-
A causa di una modifica nel kernel Ubuntu per correggere un difetto nella funzionalità Kernel Address Space Layout Randomization (KASLR), le istanze G4Dn/G5 non sono in grado di inizializzare correttamente CUDA sul driver OSS Nvidia. Per mitigare questo problema, questo DLAMI include funzionalità che caricano dinamicamente il driver proprietario per le istanze G4Dn e G5. Attendi un breve periodo di inizializzazione per questo caricamento per garantire che le istanze siano in grado di funzionare correttamente.
-
Per verificare lo stato e l'integrità di questo servizio, puoi utilizzare i seguenti comandi:
-
sudo systemctl is-active dynamic_driver_load.serviceactive
Data di rilascio: 2024-10-16
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016
Aggiunto
Data di rilascio: 2024-09-30
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929
Aggiornato
Data di rilascio: 2024-09-26
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925
Aggiunto
-
Versione iniziale della serie Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04). Include un pytorch in ambiente conda abbinato a NVIDIA Driver R550, CUDA=12.4.1, cuDNN=8.9.7, NCCL=2.20.5 ed EFA=1.34.0. PyTorch