AWS AMI GPU di base di deep learning (Ubuntu 20.04) - AWS Deep Learning AMIs

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS AMI GPU di base di deep learning (Ubuntu 20.04)

Avviso di esaurimento del supporto

Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.

Formato del nome AMI

  • AMI AMI GPU Nvidia Driver OSS Deep Learning (Ubuntu 20.04) $ {YYYY-MM-DD}

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}

EC2 Istanze supportate

  • Consulta la sezione Modifiche importanti a DLAMI.

  • Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn

L'AMI include quanto segue:

  • AWS Servizio supportato: Amazon EC2

  • Sistema operativo: Ubuntu 20.04

  • Architettura di calcolo: x86

  • L'ultima versione disponibile è installata per i seguenti pacchetti:

    • Kernel Linux 5.15

    • FSx Lustro

    • Docker

    • AWS CLI v2 in/usr/local/bin/aws2 e AWS CLI v1 in/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit per container Nvidia:

      • Comando di versione: -V nvidia-container-cli

    • Nvidia-docker2:

      • Comando di versione: versione nvidia-docker

  • Driver NVIDIA:

    • Driver Nvidia per sistema operativo: 550.163.01

    • Driver Nvidia proprietario: 550.163.01

  • Pila NVIDIA CUDA 11.7, 12.1-12.4:

    • Directory di installazione CUDA, NCCL e cudDN:/-xx.x/ usr/local/cuda

      • Esempiousr/local/cuda:/-12.1/

    • Versione NCCL compilata: 2.22.3+ .4 CUDA12

    • CUDA predefinito: 12.1

      • PATH/usr/local/cudapunta a CUDA 12.1

      • Aggiornato di seguito le variabili di ambiente:

        • LD_LIBRARY_PATH da avere/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PERCORSO da avere//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include

        • Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.

    • Luogo dei test NCCL:

      • all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Per eseguire i test NCCL, è necessario che LD_LIBRARY_PATH abbia superato gli aggiornamenti seguenti.

        • I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.

  • Programma di installazione EFA: 1.39.0

  • GDRCopyNvidia: 2.4

  • AWS Plugin OFI NCCL: viene installato come parte di EFA Installer-AWS

    • AWS OFI NCCL ora supporta più versioni NCCL con un'unica build

    • Il percorso di installazione:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libviene aggiunto a LD_LIBRARY_PATH.

    • Verifica il percorso per ring, message_transfer:/opt/aws-ofi-nccl/tests

  • Tipo di volume EBS: gp3

  • Python:/3.9 usr/bin/python

  • NVMe Posizione dell'Instance Store (sulle EC2 istanze supportate):/opt/dlami/nvme

  • Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • Driver Nvidia proprietario:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Driver Nvidia proprietario:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Note

NVIDIA Container Toolkit 1.17.4

Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 2025-02-04)

EFA ora include il plugin OFI NCCL, che ora può essere trovato in/ AWS -ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.

Politica di supporto

I componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning o per ridurre le dimensioni dell'AMI in una versione futura, senza preavviso. Rimuoviamo le versioni CUDA AMIs se non vengono utilizzate da nessuna versione del framework supportata.

EC2 istanze con più schede di rete
  • Molti tipi di istanze che supportano EFA hanno anche più schede di rete.

  • DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.

    • Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.

    • Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.

    • Per ulteriori informazioni, consulta la guida EFA qui.

Istanze P5/P5e
  • Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5en
  • P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versione del kernel viene bloccata utilizzando il comando:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-04-24

Nomi AMI
  • API GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20250424

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250424

Aggiornato

Data di rilascio: 2025-02-17

Nomi AMI
  • AMI GPU Nvidia Driver OSS di base di deep learning (Ubuntu 20.04) 20250214

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250214

Aggiornato
Rimosso

Data di rilascio: 2025-02-04

Nomi AMI
  • AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20250204

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250204

Aggiornato
  • Versione EFA aggiornata da 1.37.0 a 1.38.0

    • EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.

Rimosso

Data di rilascio: 2025-01-17

Nomi AMI
  • API GPU Nvidia Driver OSS Deep Learning (Ubuntu 20.04) 20250117

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250117

Aggiornato

Data di rilascio: 2024-12-09

Nomi AMI
  • AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20241206

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20241206

Aggiornato
  • Nvidia Container Toolkit aggiornato dalla versione 1.17.0 alla 1.17.3

Data di rilascio: 2024-11-22

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122

Aggiunto
  • È stato aggiunto il supporto per le istanze P5en. EC2

Aggiornato
  • EFA Installer aggiornato dalla versione 1.35.0 alla 1.37.0

  • Aggiorna il plugin AWS OFI NCCL dalla versione 1.12.1-aws a 1.13.0-aws

Data di rilascio: 2024-10-26

Nomi AMI
  • AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20241025

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20241025

Aggiornato

Data di rilascio: 2024-10-03

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927

Aggiornato
  • Nvidia Container Toolkit aggiornato dalla versione 1.16.1 alla 1.16.2

Data di rilascio: 2024-08-27

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827

Aggiornato
  • Driver Nvidia e Fabric Manager aggiornati dalla versione 535.183.01 a 550.90.07

  • Versione EFA aggiornata da 1.32.0 a 1.34.0

  • NCCL aggiornato all'ultima versione 2.22.3 per tutte le versioni CUDA

    • CUDA 11.7 aggiornato dalla versione 2.16.2+ 7 CUDA11

    • CUDA 12.1, 12.2 aggiornato dalla 2.18.5+ .2 CUDA12

    • CUDA 12.3 aggiornato dalla versione CUDA12 2.21.5+ .4

Aggiunto
  • Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda

  • Aggiunto il supporto per l'istanza P5e. EC2

Rimosso
  • Rimosso lo stack CUDA Toolkit versione 11.8 presente nella directory/-11.8 usr/local/cuda

Data di rilascio: 2024-08-19

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816

Aggiunto

Data di rilascio: 2024-06-06

Nomi AMI
  • API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240606

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240606

Aggiornato
  • Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08

Data di rilascio: 2024-05-15

Nomi AMI
  • API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240515

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240515

Aggiunto
  • Aggiunto lo stack CUDA11 .7 nella directory/usr/local/cuda-11.7 con CUDA11 .7, NCCL 2.16.2, cuDNN 8.7.0 poiché 1.13 supporta .7. PyTorch CUDA11

Data di rilascio: 2024-05-02

Nomi AMI
  • API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240502

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240502

Aggiornato
Aggiunto
  • Aggiunto lo stack CUDA12 .3 con CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7

Rimosso

Data di rilascio: 2024-04-04

Nomi AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404

Aggiunto
  • Per il driver OSS Nvidia DLAMIs, è stato aggiunto il supporto per le istanze G6 e Gr6. EC2 Per ulteriori informazioni, consulta la sezione Istanze GPU consigliate.

Data di rilascio: 2024-03-29

Nomi AMI
  • API GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20240326

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240326

Aggiornato
  • Driver Nvidia aggiornato da 535.104.12 a 535.161.08 sia nel driver Nvidia proprietario che in quello OSS. DLAMIs

  • Rimosso il supporto per le EC2 istanze G4dn e G5 dal driver proprietario Nvidia DLAMI.

  • Le nuove istanze supportate per ogni DLAMI sono le seguenti:

    • Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn

    • Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, P4d, P4de, P5.

Data di rilascio: 2024-03-20

Nomi AMI
  • API GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20240318

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240318

Aggiunto
  • Aggiunto awscliv2 nell'AMI in/usr/local/bin/aws2, insieme a awscliv1 usr/bin/aws /su Nvidia Driver AMI proprietari e OSS

Data di rilascio: 2024-03-14

Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314

Aggiornato
  • Driver OSS Nvidia DLAMI aggiornato con supporto G4dn e G5, in base al quale il supporto attuale è il seguente:

    • L'AMI driver Nvidia proprietaria di Deep Learning Base (Ubuntu 20.04) supporta P3, P3dn, G3, G5, G4dn.

    • L'AMI driver Nvidia OSS Deep Learning Base (Ubuntu 20.04) supporta G5, G4dn, P4, P5.

  • Si consiglia di utilizzare i driver OSS Nvidia per DLAMIs G5, G4dn, P4, P5.

Data di rilascio: 2024-02-12

Nomi AMI
  • API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240208

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240208

Aggiornato
  • AWS Il plugin OFI NCCL è aggiornato dalla 1.7.3 alla 1.7.4

Data di rilascio: 2024-02-01

Nomi AMI
  • API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240201

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240201

Sicurezza

Data di rilascio: 2023-12-04

Nomi AMI
  • AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20231204

  • AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20231204

Aggiunto
  • AWS Deep Learning AMI (DLAMI) è suddiviso in due gruppi distinti:

    • DLAMI che utilizza il driver proprietario Nvidia (per supportare P3, P3dn, G3, G5, G4dn).

    • DLAMI che utilizza il driver Nvidia OSS per abilitare EFA (per supportare P4, P5).

  • Per ulteriori informazioni sulla suddivisione DLAMI, consulta Modifiche importanti a DLAMI.

  • AWS CLI le query di cui sopra sono elencate sotto il punto elenco Query AMI-ID AWSCLI with (ad esempio la regione è us-east-1)

Aggiornato
  • EFA aggiornato dalla versione 1.26.1 alla versione 1.29.0

  • GDRCopy aggiornato dalla versione 2.3 alla 2.4

Data di rilascio: 2023-10-18

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20231018

Aggiornato
  • AWS Plugin OFI NCCL aggiornato dalla versione 1.7.2 alla versione 1.7.3

  • Directory CUDA 12.0-12.1 aggiornate con la versione NCCL 2.18.5 per corrispondere a CUDA 12.2

  • CUDA12.1 aggiornata come versione CUDA predefinita

    • LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Per i clienti che desiderano passare a una versione CUDA diversa, definisci le variabili LD_LIBRARY_PATH e PATH di conseguenza.

Data di rilascio: 2023-10-02

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20231002

Aggiornato
  • Driver NVIDIA aggiornato da 535.54.03 a 535.104.12

    • Questo driver più recente corregge le modifiche principali dell'ABI NVML rilevate nella versione del driver 535.54.03, nonché la regressione del driver rilevata nella versione 535.86.10 che interessava i toolkit CUDA sulle istanze P5. Consulta le seguenti note di rilascio di NVIDIA per i dettagli sulle correzioni:

    • Fai riferimento alle seguenti note di rilascio di NVIDIA per i dettagli sulle correzioni:

      • 4235941 - Correzione della modifica di NVML ABI Breaking

      • 4228552 - Correzione dell'errore CUDA Toolkit

  • Directory CUDA 12.2 aggiornate con NCCL 2.18.5

  • EFA aggiornato dalla versione 1.24.1 alla più recente 1.26.1

Aggiunto
  • Aggiunto .2 a/-12.2 CUDA12 usr/local/cuda

Rimosso
  • Rimosso il supporto per CUDA 11.5 e CUDA 11.6

Data di rilascio: 2023-09-26

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230926

Aggiunto

Data di rilascio: 2023-08-30

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230830

Aggiornato
  • Plugin aggiornato aws-ofi-nccl dalla v1.7.1 alla v1.7.2

Data di rilascio: 2023-08-11

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230811

Aggiunto
  • Questa AMI ora fornisce supporto per la funzionalità di training multinodo su P5 e tutte le istanze supportate in precedenza EC2 .

  • Per l' EC2 istanza P5, si consiglia di utilizzare NCCL 2.18 ed è stato aggiunto a .0 e .1. CUDA12 CUDA12

Rimosso
  • È stato rimosso il supporto per .3 e .4. CUDA11 CUDA11

Data di rilascio: 2023-08-04

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230804

Aggiornato
  • Plugin OFI NCCL aggiornato AWS alla versione 1.7.1

  • Made CUDA11 .8 come predefinito come PyTorch 2.0 supporta 11.8 e per l'istanza P5 EC2 , si consiglia di utilizzare >= .8 CUDA11

    • LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Per qualsiasi versione di cuda diversa, definisci LD_LIBRARY_PATH di conseguenza.

  • Directory CUDA 12.0, 12.1 aggiornate con NCCL 2.18.3

Fixed
  • Risolto il problema di caricamento dei pacchetti di Nvidia Fabric Manager (FM) menzionato nella precedente data di rilascio 2023-07-19.

Data di rilascio: 2023-07-19

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230719

Aggiornato
  • EFA aggiornato da 1.22.1 a 1.24.1

  • Driver Nvidia aggiornato da 525.85.12 a 535.54.03

Aggiunto
  • Sono state aggiunte modifiche allo stato c per disabilitare lo stato di inattività del processore impostando lo stato c massimo su C1. Questa modifica viene effettuata impostando `intel_idle.max_cstate=1 processor.max_cstate=1` negli argomenti di avvio di linux nel file/etc/default/grub

  • AWS EC2 Supporto per istanze P5:

    • Aggiunto il supporto dell' EC2 istanza P5 per i flussi di lavoro che utilizzano un singolo nodo/istanza. Il supporto multinodo (ad esempio per la formazione multinodo) tramite EFA (Elastic Fabric Adapter) e il plug-in AWS OFI NCCL verrà aggiunto in una prossima versione.

    • Utilizza CUDA>=11.8 per prestazioni ottimali.

    • Problema noto: il caricamento del pacchetto Nvidia Fabric Manager (FM) richiede tempo per essere caricato su P5, i clienti devono attendere 2-3 minuti fino al caricamento di FM dopo l'avvio dell'istanza P5. Per verificare se FM è avviato, esegui il comando sudo systemctl is-active nvidia-fabricmanager, dovrebbe tornare attivo prima di iniziare qualsiasi flusso di lavoro. Questo sarà migliorato nella prossima versione.

Data di rilascio: 2019-05-19

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230519

Aggiornato
  • EFA aggiornato alla versione 1.22.1 più recente

  • Versione NCCL aggiornata per CUDA da 12.1 a 2.17.1

Aggiunto

Data di rilascio: 2023-04-17

Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230414

Aggiornato
  • Nome DLAMI aggiornato da AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} a Deep Learning Base GPU AMI (Ubuntu 20.04) $ {YYYYY-MM-DD}

    • Tieni presente che supporteremo i DLAMI più recenti con il vecchio nome AMI per un mese a partire da questa versione per qualsiasi supporto necessario. I clienti possono aggiornare i pacchetti del sistema operativo apt-get update && apt-get upgrade per utilizzare le patch di sicurezza.

  • Percorso del plugin AWS OFI NCCL aggiornato da/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws

  • NCCL aggiornato a un ramo GIT personalizzato della v2.16.2, scritto in collaborazione con un team NCCL per tutte le versioni CUDA. AWS AWS Funziona meglio sull'infrastruttura.

Aggiunto
  • Aggiunto CUDA12 0.0 a usr/local/cuda /12.0

  • Aggiunto AWS FSx

  • Aggiunto il supporto per la versione Python 3.9 in/3.9 usr/bin/python

    • Nota che questa modifica non sostituisce il sistema predefinito Python, python3 punterà comunque al sistema Python3.8.

    • È possibile accedere a Python3.9 utilizzando i seguenti comandi:

      /usr/bin/python3.9 python3.9
Rimosso

Data di rilascio: 2022-05-25

Nome AMI: GPU AMI AWS Deep Learning Base CUDA 11 (Ubuntu 20.04) 20220523

Aggiornato
  • Questa versione aggiunge il supporto per la nuova istanza p4de.24xlarge. EC2

    • Aggiornato alla aws-efa-installer versione 1.15.2

    • Aggiornato aws-ofi-nccl alla versione 1.3.0-aws che include la topologia per p4de.24xlarge.

Data di rilascio: 2022-03-25

Nome AMI: GPU AMI AWS Deep Learning Base CUDA 11 (Ubuntu 20.04) 20220325

Aggiornato
  • Versione EFA aggiornata da 1.15.0 a 1.15.1

Data di rilascio: 2022-03-17

Nome AMI: GPU AMI AWS Deep Learning Base CUDA 11 (Ubuntu 20.04) 20220323

Aggiunto
  • Primo rilascio