AWS AMI GPU di ARM64 base di deep learning (Amazon Linux 2023) - AWS Deep Learning AMIs

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS AMI GPU di ARM64 base di deep learning (Amazon Linux 2023)

Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.

Formato del nome AMI

  • AMI AMI GPU Nvidia Driver OSS di deep learning ARM64 (Amazon Linux 2023) $ {YYYY-MM-DD}

Istanze supportate EC2

  • G5g, P6e- GB2 00 (CUDA>=12.8 è supportato su P6e- 00) GB2

L'AMI include quanto segue:

  • AWS Servizio supportato: Amazon EC2

  • Sistema operativo: Amazon Linux 2023

  • Architettura di calcolo: ARM64

  • L'ultima versione disponibile è installata per i seguenti pacchetti:

    • Kernel Linux: 6. 12

    • FSx Lustro

    • Docker

    • AWS CLI v2 in/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit per container Nvidia:

      • Comando di versione: -V nvidia-container-cli

    • Nvidia-docker2:

      • Comando di versione: versione nvidia-docker

  • Driver NVIDIA: 570.158.01

  • Pila NVIDIA CUDA 12.4, 12.5, 12.6, 12.8:

    • Directory di installazione CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda

      • Esempiousr/local/cuda-12.8/ , /usr/local/cuda:/-12.8/

    • Versione NCCL compilata:

      • Per la directory CUDA 12.4, versione NCCL compilata 2.22.3+ .4 CUDA12

      • Per la directory CUDA 12.5, è stata compilata la versione NCCL 2.22.3+ .5 CUDA12

      • Per la directory CUDA 12.6, è stata compilata la versione NCCL 2.24.3+ .6 CUDA12

      • Per la directory CUDA 12.8, è stata compilata la versione NCCL 2.27.5+ .8 CUDA12

    • CUDA predefinito: 12.8

      • PATH/usr/local/cudapunta a CUDA 12.8

      • Aggiornato di seguito le variabili di ambiente:

        • LD_LIBRARY_PATH da avere/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PERCORSO da avere//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include

        • Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.

  • Programma di installazione EFA: 1.42.0

  • GDRCopyNvidia: 2.5.1

  • AWS Il plugin OFI NCCL viene fornito con il programma di installazione EFA

    • I percorsi/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efavengono aggiunti a LD_LIBRARY_PATH.

  • AWS CLI v2 in/usr/local/bin/aws

  • Tipo di volume EBS: gp3

  • Python:/3.9 usr/bin/python

  • Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-amazon-linux-2023/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

    aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
istanze P6e-00 GB2

Le istanze P6e- GB2 00 contengono 17 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

Note

NVIDIA Container Toolkit 1.17.4

Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Politica di supporto

Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning o per ridurre le dimensioni dell'AMI in una versione futura, senza preavviso. Rimuoviamo le versioni CUDA AMIs se non vengono utilizzate da nessuna versione del framework supportata.

Kernel
  • La versione del kernel viene bloccata utilizzando il comando:

    sudo dnf versionlock kernel*
  • Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-07-04

Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250704

Aggiornato

  • È stato aggiunto il supporto all'istanza P6e- EC2 00. GB2 Tieni presente che CUDA>=12.8 è supportato su P6e- 00 GB2

  • Aggiungi EFA 1.42.0

  • Driver Nvidia aggiornato dalla versione 570.133.20 alla 570.158.01

  • Stack CUDA 12.8 aggiornato con NCCL 2.27.5

Data di rilascio: 2025-04-24

Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250424

Aggiornato

Data di rilascio: 2025-04-22

Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Aggiornato

Data di rilascio: 2025-04-04

Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250404

Aggiornato

  • Versione del kernel aggiornata dalla 6.1 alla 6.12

Data di rilascio: 2025-03-03

Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250303

Aggiornato

  • Driver Nvidia da 550.144.03 a 570.86.15

  • Il CUDA predefinito viene modificato da .4 a .6 CUDA12 CUDA12

Aggiunto

  • Directory CUDA di 12.5 con versione NCCL CUDA12 2.22.3+ .5 compilata e cuDNN 9.7.1.26

  • Directory CUDA di 12.6 con versione NCCL CUDA12 2.24.3+ .6 compilata e cuDNN 9.7.1.26

  • Directory CUDA di 12.8 con versione NCCL CUDA12 2.25.1+ .8 compilata e cuDNN 9.7.1.26

Data di rilascio: 2025-02-14

Nome AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250214

Aggiunto

  • Versione iniziale di Deep Learning ARM64 Base OSS DLAMI per Amazon Linux 2023