Formato del nome AMI EC2 Istanze supportate Contenuti di AMI Note Data di rilascio: 2025-02-21

AWS GPU AMI PyTorch 2.6 con apprendimento approfondito (Ubuntu 22.04)

Per informazioni su come iniziare, consulta. Guida introduttiva a DLAMI

Formato del nome AMI

GPU AMI Nvidia Driver OSS con apprendimento approfondito 2.6 PyTorch . $ {VERSIONE PATCH} (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Istanze supportate

Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.

L'AMI include quanto segue:

AWS Servizio supportato: Amazon EC2
Sistema operativo: Ubuntu 22.04
Architettura di calcolo: x86
Python:/opt/pytorch/bin/python
Driver NVIDIA:
- Driver Nvidia OSS: 570.172.08
CUDA12Pila NVIDIA 2.1:
- Percorso di installazione di CUDA, NCCL e cuDDN:/-12.6/ usr/local/cuda
- CUDA predefinito: 12.6
  - PERCORSO/-12.6/ usr/local/cuda points to /usr/local/cuda
  - Aggiornato sotto le variabili di ambiente:
    
    LD_LIBRARY_PATH da avere/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
    PERCORSO da avere//usr/local/cuda/bin/:/usr/local/cuda/include
- Versione NCCL del sistema compilato presente in/usr/local/cuda/: 2.24.3
- PyTorch Versione NCCL compilata dall'ambiente conda: 2.21.5 PyTorch
Luogo dei test NCCL:
- all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
- Per eseguire i test NCCL, LD_LIBRARY_PATH è già aggiornato con i percorsi necessari.
- I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
- /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
- LD_LIBRARY_PATH viene aggiornato con i percorsi della versione CUDA
- /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Programma di installazione EFA: 1.38.0
GDRCopyNvidia: 2.4.1
Motore Nvidia Transformer: v1.11.0
AWS OFI NCCL: 1.13.2-aws
- Il percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH. opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib
- Nota: il PyTorch pacchetto include anche il plug-in AWS OFI NCCL collegato dinamicamente come pacchetto conda e PyTorch utilizzerà quel aws-ofi-nccl-dlc pacchetto invece del sistema OFI NCCL. AWS
AWS CLI v2 come aws2 e v1 come aws AWS CLI
Tipo di volume EBS: gp3
Versione Python: 3.11

Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

Driver OSS Nvidia:


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-ubuntu-22.04/latest/ami-id  \
    --query "Parameter.Value" \
    --output text

Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

Driver OSS Nvidia:


aws ec2 describe-images --region us-east-1 \
    --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Note

PyTorch Deprecazione di Anaconda Channel

A partire dalla versione PyTorch 2.6, Pytorch ha eliminato il supporto per Conda (vedi annuncio ufficiale). Di conseguenza, Pytorch 2.6 e versioni successive passeranno all'utilizzo di Python Virtual Environments. Per attivare pytorch venv, usa source/opt/pytorch/bin/activate

Istanze P5/P5e:

DeviceIndex è unico per ciascuno NetworkCard e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1. Di seguito è riportato l'esempio del comando di avvio dell'istanza EC2 P5 che utilizza awscli visualizzato NetworkCardIndex dal numero 0-31 e DeviceIndex come 0 per la prima interfaccia e DeviceIndex come 1 per le restanti 31 interfacce.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

La versione del kernel viene bloccata utilizzando il comando:


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
```
echo linux-aws install | sudo dpkg —set-selections
echo linux-headers-aws install | sudo dpkg —set-selections
echo linux-image-aws install | sudo dpkg —set-selections
apt-get upgrade -y
```
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-02-21

Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.0 (Ubuntu 22.04) 20250220

Aggiunto

Versione iniziale della serie Deep Learning AMI GPU PyTorch 2.6 (Ubuntu 22.04). Include un ambiente virtuale Python pytorch (source/opt/pytorch/bin/activate), abbinato a NVIDIA Driver R570, CUDA=12.6, cuDNN=9.7, NCCL=2.21.5 ed EFA=1.38.0. PyTorch
- A PyTorch partire dalla versione 2.6, Pytorch ha reso obsoleto il supporto per Conda (vedi annuncio ufficiale). Di conseguenza, Pytorch 2.6 e versioni successive passeranno all'utilizzo di Python Virtual Environments. Per attivare Pytorch venv, attiva utilizzando source/opt/pytorch/bin/activate

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

GPU PyTorch 2.6 (Amazon Linux 2023)

GPU PyTorch 2.5 (Amazon Linux 2023)