Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS GPU AMI PyTorch 2.6 con apprendimento approfondito (Ubuntu 22.04)
Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI
Formato del nome AMI
GPU AMI Nvidia Driver OSS con apprendimento approfondito 2.6 PyTorch . $ {PATCH-VERSION} (Ubuntu 22.04) $ {YYYYY-MM-DD}
EC2 Istanze supportate
Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.
L'AMI include quanto segue:
AWS Servizio supportato: Amazon EC2
Sistema operativo: Ubuntu 22.04
Architettura di calcolo: x86
Python:/opt/pytorch/bin/python
Driver NVIDIA:
Driver Nvidia OSS: 570.86.15
Pila NVIDIA 2.1: CUDA12
Percorso di installazione di CUDA, NCCL e cuDDN:/-12.6/ usr/local/cuda
-
CUDA predefinito: 12.6
PERCORSO/-12.6/ usr/local/cuda points to /usr/local/cuda
-
Aggiornato sotto le variabili di ambiente:
LD_LIBRARY_PATH da avere/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
PERCORSO da avere//usr/local/cuda/bin/:/usr/local/cuda/include
Versione NCCL del sistema compilato presente in/usr/local/cuda/: 2.24.3
PyTorch Versione NCCL compilata dall'ambiente conda: 2.21.5 PyTorch
Luogo dei test NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Per eseguire i test NCCL, LD_LIBRARY_PATH è già aggiornato con i percorsi necessari.
I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
LD_LIBRARY_PATH viene aggiornato con i percorsi della versione CUDA
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Programma di installazione EFA: 1.38.0
GDRCopyNvidia: 2.4.1
Motore Nvidia Transformer: v1.11.0
AWS OFI NCCL: 1.13.2-aws
Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib
Nota: il PyTorch pacchetto include anche il plug-in AWS OFI NCCL collegato dinamicamente come pacchetto conda e PyTorch utilizzerà quel aws-ofi-nccl-dlc pacchetto invece del sistema OFI NCCL. AWS
AWS CLI v2 come aws2 e v1 come aws AWS CLI
Tipo di volume EBS: gp3
Versione Python: 3.11
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
PyTorch Deprecazione di Anaconda Channel
A partire dalla versione PyTorch 2.6, Pytorch ha eliminato il supporto per Conda (vedi annuncio ufficiale).
Istanze P5/P5e:
DeviceIndex è unico per ciascuno NetworkCard e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1. Di seguito è riportato l'esempio del comando di avvio dell'istanza EC2 P5 che utilizza awscli visualizzato NetworkCardIndex dal numero 0-31 e DeviceIndex come 0 per la prima interfaccia e DeviceIndex come 1 per le restanti 31 interfacce.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versione del kernel viene bloccata utilizzando il comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-02-21
Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.0 (Ubuntu 22.04) 20250220
Aggiunto
Versione iniziale della serie Deep Learning AMI GPU PyTorch 2.6 (Ubuntu 22.04). Include un ambiente virtuale Python pytorch (source/opt/pytorch/bin/activate), abbinato a NVIDIA Driver R570, CUDA=12.6, cuDNN=9.7, NCCL=2.21.5 ed EFA=1.38.0. PyTorch
A PyTorch partire dalla versione 2.6, Pytorch ha reso
obsoleto il supporto per Conda (vedi annuncio ufficiale). Di conseguenza, Pytorch 2.6 e versioni successive passeranno all'utilizzo di Python Virtual Environments. Per attivare Pytorch venv, attiva utilizzando source/opt/pytorch/bin/activate