Formato del nome AMI Istanze supportate EC2 Contenuti di AMI Note Data di rilascio: 2025-05-22

AWS GPU AMI OSS PyTorch 2.7 con apprendimento approfondito (Amazon Linux 2023)

Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.

Formato del nome AMI

GPU AMI Nvidia Driver OSS con apprendimento approfondito PyTorch 2.7 (Amazon Linux 2023) $ {YYYY-MM-DD}

Istanze supportate EC2

Consulta la sezione Modifiche importanti a DLAMI
G4dn, G5, G6, G6e, Gr6, P4, P4de, P5, P5e, P5en, P6-B200

L'AMI include quanto segue:

AWS Servizio supportato: Amazon EC2
Sistema operativo: Amazon Linux 2023
Architettura di calcolo: x86
Kernel Linux: 6.1
Driver NVIDIA: 570.172.08
Pila NVIDIA CUDA 12.8:
- Directory di installazione CUDA, NCCL e cuDDN:/-12.8/ usr/local/cuda
- Luogo dei test NCCL:
  - all_reduce, all_gather e reduce_scatter:
    /usr/local/cuda-12.8/efa/test-cuda-12.8/
  - Per eseguire i test NCCL, LD_LIBRARY_PATH è già aggiornato con i percorsi necessari.
    
    I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
    LD_LIBRARY_PAT viene aggiornato con i percorsi della versione CUDA:
    /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
- Versione NCCL compilata:
  - Per la directory CUDA 12.8, versione NCCL compilata 2.26.2+ .8 CUDA12
- CUDA predefinito: 12.8
  - PATH/usr/local/cudapunta a CUDA 12.8
  - Aggiornato di seguito le variabili di ambiente:
    
    LD_LIBRARY_PATH da avere/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib
    PERCORSO da avere//usr/local/cuda/bin/:/usr/local/cuda/include
Programma di installazione EFA: 1.43.1
GDRCopyNvidia: 2.5
AWS OFI NCCL: 1.14.2-aws
- Percorso di installazione:/viene aggiunto a LD_LIBRARY_PATH opt/amazon/ofi-nccl/. Path /opt/amazon/ofi-nccl/lib
AWS CLI v2 in/usr/local/bin/aws
Tipo di volume EBS: gp3
Toolkit per contenitori Nvidia: 1.17.7
- Comando di versione: -V nvidia-container-cli
Docker: 25.0.8
Python:/opt/pytorch/bin/python

Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-amazon-linux-2023/latest/ami-id \
    --query "Parameter.Value" \
    --output text

Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):


aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Note

Istanze P6-B200

Le istanze P6-B200 richiedono la versione CUDA 12.8 o successiva e il driver NVIDIA 570 o versioni successive.
P6-B200 contiene 8 schede di interfaccia di rete e può essere avviato utilizzando il seguente comando AWS CLI:


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Istanze P5/P5e

DeviceIndex è unico per ciascuna NetworkCard e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1. Di seguito è riportato un esempio di comando di avvio dell'istanza EC2 P5 che utilizza awscli che mostra i numeri 0-31 e DeviceIndex come 0 NetworkCardIndex per la prima interfaccia e 1 per le restanti 31 interfacce.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

La versione del kernel viene bloccata utilizzando il comando:
```
sudo dnf versionlock kernel*
```
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
```
sudo dnf versionlock delete kernel*
sudo dnf update -y
```
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

PyTorch Deprecazione di Anaconda Channel

A partire dalla versione PyTorch 2.6, PyTorch ha un supporto obsoleto per Conda (vedi annuncio ufficiale). Di conseguenza, PyTorch 2.6 e versioni successive passeranno all'utilizzo degli ambienti virtuali Python. Per attivare PyTorch venv, usa source/opt/pytorch/bin/activate

Data di rilascio: 2025-05-22

Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) 20250520

Aggiunto

Versione iniziale della serie Deep Learning AMI GPU PyTorch 2.7 (Amazon Linux 2023). Include un ambiente virtuale Python pytorch (source/opt/pytorch/bin/activate) abbinato a NVIDIA Driver R570, CUDA=12.8, cuDNN=9.10, NCCL=2.26.2 ed EFA=1.40.0. PyTorch

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

X86

GPU PyTorch 2.7 (Ubuntu 22.04)