Formato del nome AMI Istanze supportate EC2 Contenuti di AMI Note Data di rilascio: 2025-02-17 Data di rilascio: 2025-01-08 Data di rilascio: 2024-11-21

AWS GPU AMI PyTorch 2.5 con apprendimento approfondito (Amazon Linux 2023)

Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.

Formato del nome AMI

GPU AMI Nvidia Driver OSS con apprendimento approfondito PyTorch 2.5.1 (Amazon Linux 2023) $ {YYYY-MM-DD}

Istanze supportate EC2

Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

L'AMI include quanto segue:

AWS Servizio supportato: EC2
Sistema operativo: Amazon Linux 2023
Architettura di calcolo: x86
Stack NVIDIA 4.4 CUDA12:
- Percorso di installazione di CUDA, NCCL e cuDDN:/-12.4/ usr/local/cuda
- CUDA predefinito: 12.4
  - PERCORSO/-12.4/ usr/local/cuda points to /usr/local/cuda
  - Aggiornato sotto le variabili di ambiente:
    
    LD_LIBRARY_PATH da avere/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
    PERCORSO da avere//usr/local/cuda/bin/:/usr/local/cuda/include
- Versione NCCL compilata per 12.4:2.21.5
Luogo dei test NCCL:
- all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
- Per eseguire i test NCCL, LD_LIBRARY_PATH è già aggiornato con i percorsi necessari.
  - I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
    
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
- LD_LIBRARY_PATH viene aggiornato con i percorsi della versione CUDA
  - /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Programma di installazione EFA: 1.38.0
GDRCopyNvidia: 2.4.1
AWS OFI NCCL: 1.13.2-aws
- AWS OFI NCCL ora supporta più versioni NCCL con un'unica build
- Il percorso di installazione:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libviene aggiunto a LD_LIBRARY_PATH.
- Verifica il percorso per ring, message_transfer:/opt/aws-ofi-nccl/tests
Versione Python: 3.11
Python:/opt/conda/envs/pytorch/bin/python
Driver NVIDIA: 560.35.03
AWS CLI v2 in/usr/bin/aws
Tipo di volume EBS: gp3
NVMe Posizione dell'Instance Store (sulle EC2 istanze supportate):/opt/dlami/nvme

Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

Driver OSS Nvidia:


aws ssm get-parameter --region us-east-1 \
        --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \
        --query "Parameter.Value" \
        --output text

Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

Driver OSS Nvidia:


aws ec2 describe-images --region us-east-1 \
    --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Note

Istanze P5/P5e:

DeviceIndex è unico per ciascuno NetworkCard e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1. Di seguito è riportato l'esempio del comando di avvio dell'istanza EC2 P5 che utilizza awscli visualizzato NetworkCardIndex dal numero 0-31 e DeviceIndex come 0 per la prima interfaccia e DeviceIndex come 1 per le restanti 31 interfacce.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

La versione del kernel viene bloccata utilizzando il comando:
```
sudo dnf versionlock kernel*
```
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
```
sudo dnf versionlock delete kernel*
sudo dnf update -y
```
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-02-17

Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216

Aggiornato

NVIDIA Container Toolkit aggiornato dalla versione 1.17.3 alla versione 1.17.4
- Per ulteriori informazioni, consulta la pagina delle note di rilascio qui:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
- Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Rimosso

Sono state rimosse le librerie di spazio utente cuobj e nvdisasm fornite dal toolkit NVIDIA CUDA e presenti nel NVIDIA CUDA Toolkit Security Bulletin del 18 febbraio 2025 CVEs

Data di rilascio: 2025-01-08

Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107

Aggiunto

È stato aggiunto il supporto per le istanze G4dn.

Data di rilascio: 2024-11-21

Nome AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120

Aggiunto

Versione iniziale di Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 per Amazon Linux 2023

Problemi noti

Al momento, questo DLAMI non supporta le istanze G4dn e G5 EC2 . AWS è a conoscenza di un'incompatibilità che può causare errori di inizializzazione CUDA, che interessano entrambe le famiglie di istanze G4dn e G5 quando si utilizzano i driver NVIDIA open source insieme a una versione del kernel Linux 6.1 o successiva. Questo problema riguarda, tra le altre, distribuzioni Linux come Amazon Linux 2023, Ubuntu 22.04 o versioni successive o SUSE Linux Enterprise Server 15 SP6 o versioni successive.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

GPU PyTorch 2.6 (Ubuntu 22.04)

GPU PyTorch 2.5 (Ubuntu 22.04)