AWS AMI di base di apprendimento approfondito (Amazon Linux 2) - AWS Deep Learning AMIs

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS AMI di base di apprendimento approfondito (Amazon Linux 2)

Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.

Formato del nome AMI

  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) Versione $ {XX.X}

  • Versione AMI del driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) $ {XX.X}

EC2 Istanze supportate

  • Consulta la sezione Modifiche importanti a DLAMI.

  • Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn

L'AMI include quanto segue:

  • AWS Servizio supportato: Amazon EC2

  • Sistema operativo: Amazon Linux 2

  • Architettura di calcolo: x86

  • L'ultima versione disponibile è installata per i seguenti pacchetti:

    • Kernel Linux: 5.10

    • Docker

    • AWS CLI v2 a/usr/local/bin/aws2 e AWS CLI v1 a/usr/bin/aws

    • Toolkit per contenitori Nvidia:

      • Comando di versione: -V nvidia-container-cli

    • Nvidia-docker2:

      • Comando di versione: versione nvidia-docker

  • Python:/3.7 usr/bin/python

  • Driver NVIDIA:

    • Driver Nvidia per sistema operativo: 550.163.01

    • Driver Nvidia proprietario: 550.163.01

  • Pila NVIDIA CUDA 12.1-12.4:

    • Directory di installazione CUDA, NCCL e CUDDN:/-xx.x/ usr/local/cuda

    • CUDA predefinito: 12.1

      • PATH/usr/local/cudapunta a CUDA 12.1

      • Aggiornato di seguito le variabili di ambiente:

        • LD_LIBRARY_PATH da avere/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PERCORSO da avere//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include

        • Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.

    • Versione NCCL compilata: 2.22.3

    • Luogo dei test NCCL:

      • all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Per eseguire i test NCCL, è necessario che LD_LIBRARY_PATH abbia superato gli aggiornamenti seguenti.

        • I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.

  • Programma di installazione EFA: 1.38.0

  • GDRCopyNvidia: 2.4

  • AWS OFI NCCL: 1.13.2

    • AWS OFI NCCL ora supporta più versioni NCCL con un'unica build

    • Percorso di installazione:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 viene aggiunto a LD_LIBRARY_PATH.

  • Tipo di volume EBS: gp3

  • Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • Driver Nvidia proprietario:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

    • Driver OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Driver Nvidia proprietario:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Note

NVIDIA Container Toolkit 1.17.4

Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 2025-02-04)

EFA ora include il plugin OFI NCCL, che ora può essere trovato in/ AWS -ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.

Politica di supporto

Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning o per ridurre le dimensioni dell'AMI in una versione futura, senza preavviso. Rimuoviamo le versioni CUDA AMIs se non vengono utilizzate da nessuna versione del framework supportata.

EC2 istanze con più schede di rete
  • Molti tipi di istanze che supportano EFA hanno anche più schede di rete.

  • DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.

    • Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.

    • Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.

    • Per ulteriori informazioni, consulta la guida EFA qui.

Istanze P5/P5e
  • Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5en
  • P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versione del kernel viene bloccata utilizzando il comando:

    sudo yum versionlock kernel*
  • Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:

    sudo yum versionlock delete kernel* sudo yum update -y
  • Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-04-22

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 69.3

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 67.0

Aggiornato

Data di rilascio: 2025-02-17

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.5

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.3

Aggiornato

Rimosso

Data di rilascio: 2025-02-04

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.4

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.1

Aggiornato

  • Versione EFA aggiornata da 1.37.0 a 1.38.0

Data di rilascio: 2025-01-17

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.3

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.0

Aggiornato

Data di rilascio: 2025-01-06

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.2

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.9

Aggiornato

  • EFA aggiornato dalla versione 1.34.0 alla 1.37.0

  • OFI NCCL aggiornato AWS dalla versione 1.11.0 alla 1.13.0

Data di rilascio: 2024-12-09

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.1

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.8

Aggiornato

  • Nvidia Container Toolkit aggiornato dalla versione 1.17.0 alla 1.17.3

Data di rilascio: 2024-11-09

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.9

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.6

Aggiornato

Data di rilascio: 2024-10-22

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.7

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.4

Aggiornato

Data di rilascio: 2024-10-03

Nomi AMI
  • Versione AMI del driver Nvidia di base per Deep Learning (Amazon Linux 2)

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.2

Aggiornato

Data di rilascio: 2024-08-27

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.0

Aggiornato

  • Driver Nvidia e Fabric Manager aggiornati dalla versione 535.183.01 a 550.90.07

  • Versione EFA aggiornata da 1.32.0 a 1.34.0

  • NCCL aggiornato all'ultima versione 2.22.3 per tutte le versioni CUDA

    • CUDA 12.1, 12.2 aggiornato da 2.18.5+ 2. CUDA12

    • CUDA 12.3 aggiornato CUDA12 da 2.21.5+ .4

Aggiunto

  • Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda

  • Aggiunto il supporto per le istanze P5e. EC2

Rimosso

  • Rimosso lo stack CUDA Toolkit versione 11.8 presente nella directory/-11.8 usr/local/cuda

Data di rilascio: 2024-08-19

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 66.3

Aggiunto

  • È stato aggiunto il supporto per le istanze EC2 G6e.

Data di rilascio: 2024-06-06

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 65.4

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.9

Aggiornato

  • Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08

Data di rilascio: 2024-05-02

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 64.7

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.2

Aggiornato

  • Versione EFA aggiornata dalla versione 1.30 alla versione 1.32

  • Plugin AWS OFI NCCL aggiornato dalla versione 1.7.4 alla versione 1.9.1

  • Nvidia Container Toolkit aggiornato dalla versione 1.13.5 alla versione 1.15.0

Aggiunto

Rimosso

  • Sono stati rimossi gli CUDA11 stack .7, CUDA12 .0 presenti in /-12.0 usr/local/cuda-11.7 and /usr/local/cuda

  • Il pacchetto nvidia-docker2 e il relativo comando nvidia-docker sono stati rimossi come parte dell'aggiornamento del toolkit container Nvidia dalla 1.13.5 alla 1.15.0 che NON include i pacchetti e nvidia-docker2. nvidia-container-runtime

Data di rilascio: 2024-04-04

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 64.0

Aggiunto

  • Per il driver OSS Nvidia DLAMIs, è stato aggiunto il supporto per le istanze G6 e Gr6 EC2

Data di rilascio: 2024-03-29

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 62.3

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.2

Aggiornato

  • Driver Nvidia aggiornato da 535.104.12 a 535.161.08 sia nel driver Nvidia proprietario che in quello OSS. DLAMIs

  • Le nuove istanze supportate per ogni DLAMI sono le seguenti:

    • Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn

    • Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, P4d, P4de, P5.

Rimosso

  • Rimosso il EC2 supporto per le istanze G4dn, G5, G3.16x dal driver proprietario Nvidia DLAMI.

Data di rilascio: 2024-03-20

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 63.1

Aggiunto

  • Aggiunto awscliv2 nell'AMI come usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws /on OSS Nvidia Driver AMI

Data di rilascio: 2024-03-13

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 63.0

Aggiornato

  • Driver OSS Nvidia DLAMI aggiornato con supporto G4dn e G5, in base al quale il supporto attuale è il seguente:

    • L'AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) supporta P3, P3dn, G3, G4dn, G5.

    • L'AMI driver Nvidia OSS di Deep Learning Base (Amazon Linux 2) supporta G4dn, G5, P4, P5.

  • Si consiglia di utilizzare i driver DLAMIs OSS Nvidia per G4dn, G5, P4, P5.

Data di rilascio: 2024-02-13

Nomi AMI
  • Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 62.1

  • AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 62.1

Aggiornato

  • Driver OSS Nvidia aggiornato da 535.129.03 a 535.154.05

  • EFA aggiornato da 1.29.0 a 1.30.0

  • AWS OFI NCCL aggiornato da 1.7.3-aws a 1.7.4-aws

Data di rilascio: 2024-02-01

Nome AMI: Nvidia Driver AMI proprietario di Deep Learning Base (Amazon Linux 2) versione 62.0

Sicurezza

Versione 61.4

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 61.4

Aggiornato

  • Driver OSS Nvidia aggiornato da 535.104.12 a 535.129.03

Versione 61.0

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 61.4

Aggiornato

  • EFA aggiornato dalla versione 1.26.1 alla 1.29.0

  • GDRCopy aggiornato dalla versione 2.3 alla 2.4

Aggiunto

  • AWS Deep Learning AMI (DLAMI) è suddiviso in due gruppi distinti:

    • DLAMI che utilizza il driver proprietario Nvidia (per supportare P3, P3dn, G3, G5, G4dn).

    • DLAMI che utilizza il driver Nvidia OSS per abilitare EFA (per supportare P4, P5).

  • Per ulteriori informazioni sulla divisione DLAMI, fare riferimento all'annuncio pubblico.

  • Per AWS CLI le interrogazioni, vedere il punto elenco Query AMI-ID AWSCLI with (ad esempio la regione è us-east-1)

Versione 60.6

Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.6

Aggiornato

  • AWS Plugin OFI NCCL aggiornato dalla versione 1.7.2 alla versione 1.7.3

  • Directory CUDA 12.0-12.1 aggiornate con la versione NCCL 2.18.5

  • CUDA12.1 aggiornata come versione CUDA predefinita

    • LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Per i clienti che desiderano passare a una versione CUDA diversa, definisci le variabili LD_LIBRARY_PATH e PATH di conseguenza.

Aggiunto

  • Il Kernel Live Patching è ora abilitato. Il live patching consente ai clienti di applicare vulnerabilità di sicurezza e patch di bug critici a un kernel Linux in esecuzione, senza riavvii o interruzioni delle applicazioni in esecuzione. Tieni presente che il supporto per il live patching per il kernel 5.10.192 terminerà il 30/11/23.

Versione 60.5

Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.5

Aggiornato

  • Driver NVIDIA aggiornato da 535.54.03 a 535.104.12

    Questo driver più recente corregge le modifiche principali dell'ABI NVML riscontrate nel driver 535.54.03, nonché la regressione del driver trovata nel driver 535.86.10 che interessava i toolkit CUDA sulle istanze P5. Consulta le seguenti note di rilascio di NVIDIA per i dettagli sulle correzioni:

    • 4235941 - Correzione della modifica di NVML ABI Breaking

    • 4228552 - Correzione dell'errore CUDA Toolkit

  • Directory CUDA 12.2 aggiornate con NCCL 2.18.5

  • EFA aggiornato dalla versione 1.24.1 alla versione più recente 1.26.1

Aggiunto

  • Aggiunto .2 a/-12.2 CUDA12 usr/local/cuda

Rimosso

  • Rimosso il supporto per CUDA 11.5 e CUDA 11.6

Versione 60.2

Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.2

Aggiornato

  • aws-ofi-ncclPlugin aggiornato dalla v1.7.1 alla v1.7.2

Versione 60.0

Data di rilascio: 2023-08-11

Aggiunto

  • Questa AMI ora fornisce supporto per la funzionalità di training multinodo su P5 e tutte le istanze supportate in precedenza EC2

  • Per le EC2 istanze P5, si consiglia di utilizzare NCCL 2.18 ed è stato aggiunto a .0 e .1. CUDA12 CUDA12

Rimosso

  • È stato rimosso il supporto per .5. CUDA11

Versione 5.9.2

Data di rilascio: 2023-08-08

Rimosso

  • CUDA-11.3 e CUDA-11.4 rimossi

Versione 59.1

Data di rilascio: 2023-08-03

Aggiornato

  • Plugin AWS OFI NCCL aggiornato alla versione 1.7.1

  • Made CUDA11 .8 come predefinito come PyTorch 2.0 supporta 11.8 e per l'istanza P5 EC2 , si consiglia di utilizzare >= .8 CUDA11

    • LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Per qualsiasi versione di cuda diversa, definisci LD_LIBRARY_PATH di conseguenza.

Fixed

  • Risolto il problema di caricamento dei pacchetti di Nvidia Fabric Manager (FM) menzionato nella precedente data di rilascio 2023-07-19.

Versione 58.9

Data di rilascio: 2023-07-19

Aggiornato

  • Driver Nvidia aggiornato da 525.85.12 a 535.54.03

  • Programma di installazione EFA aggiornato da 1.22.1 a 1.24.1

Aggiunto

  • Sono state aggiunte modifiche allo stato c per disabilitare lo stato di inattività del processore impostando lo stato c massimo su C1. Questa modifica viene effettuata impostando `intel_idle.max_cstate=1 processor.max_cstate=1` negli argomenti di avvio di linux nel file/etc/default/grub

  • AWS EC2 Supporto per istanze P5:

    • Aggiunto il supporto dell' EC2 istanza P5 per i flussi di lavoro che utilizzano un singolo nodo/istanza. Il supporto multinodo (ad esempio per la formazione multinodo) tramite EFA (Elastic Fabric Adapter) e il plug-in AWS OFI NCCL verrà aggiunto in una prossima versione.

    • Utilizza CUDA>=11.8 per prestazioni ottimali.

    • Problema noto: il caricamento del pacchetto Nvidia Fabric Manager (FM) richiede tempo per essere caricato su P5, i clienti devono attendere 2-3 minuti prima che FM si carichi dopo aver avviato l'istanza P5. Per verificare se FM è avviato, esegui il comando sudo systemctl is-active nvidia-fabricmanager, dovrebbe tornare attivo prima di iniziare qualsiasi flusso di lavoro. Questo problema verrà risolto nella prossima versione.

Versione 58.0

Data di rilascio: 2023-05-19

Rimosso

  • È stato rimosso lo stack CUDA11 .0-11.2 secondo la politica di supporto menzionata nella sezione superiore di questo documento.

Versione 5.7.3

Data di rilascio: 2023-04-06

Aggiunto

  • GDRCopy Aggiunto Nvidia 2.3

Versione 56.8

Data di rilascio: -09

Aggiornato

  • Driver NVIDIA aggiornato da 515.65.01 a 525.85.12

Aggiunto

  • Aggiunto usr/local/cuda cuda-11.8 a/-11.8/

Versione 56.0

Data di rilascio: 2022-12-06

Aggiornato

  • Versione EFA aggiornata da 1.17.2 a 1.19.0

Versione 55.0

Data di rilascio: 2022-11-04

Aggiornato

  • Driver NVIDIA aggiornato da 510.47.03 a 515.65.01

Aggiunto

  • Aggiunto usr/local/cuda cuda-11.7 in/-11.7/

Versione 54.0

Data di rilascio: 2022-09-15

Aggiornato

  • Versione EFA aggiornata da 1.16.0 a 1.17.2

Versione 53.3

Data di rilascio: 2022-05-25

Aggiornato

  • Aggiornato alla versione 1.15.2 aws-efa-installer

  • Aggiornato aws-ofi-nccl alla versione 1.3.0-aws che include la topologia per p4de.24xlarge.

Aggiunto

  • Questa versione aggiunge il supporto per EC2 le istanze p4de.24xlarge.

Versione 53.0

Data di rilascio: 2022-04-28

Aggiunto

  • CloudWatch Agente Amazon aggiunto

  • Aggiunti tre servizi systemd che utilizzano file json predefiniti disponibili su path/opt/aws/amazon-cloudwatch-agent/etc/per configurare i parametri della GPU utilizzando l'utente linux cwagent

    • dlami-cloudwatch-agent@minimal

      • Comandi per abilitare le metriche della GPU:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • Crea le seguenti metriche: utilization_gpu utilization_memory

    • dlami-cloudwatch-agent@partial

      • Comandi per abilitare le metriche della GPU:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • Crea le seguenti metriche:utilization_gpu,,,, utilization_memory memory_total memory_used memory_free

    • dlami-cloudwatch-agent@all

      • Comandi per abilitare le metriche della GPU:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • Crea tutte le metriche GPU disponibili

Versione 52.0

Data di rilascio: 2022-03-08

Aggiornato

  • Versione del Kernel aggiornata alla 5.10

Versione 51.0

Data di rilascio: 2022-03-04

Aggiornato

  • Driver Nvidia aggiornato alla versione 510.47.03

Versione 50.0

Data di rilascio: 2022-02-17

Aggiornato

  • Bloccati aws-neuron-dkms e tensorflow-model-server-neuron man mano che vengono aggiornati alle versioni più recenti che non sono supportate dai pacchetti Neuron presenti nell'AMI

    • Comandi se il cliente desidera sbloccare il pacchetto per aggiornarlo alla versione più recente: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron

Versione 49.0

Data di rilascio: 2022-01-13

Aggiunto

  • Aggiunto CUDA11 2.2 con i seguenti componenti:

    • cuDNN v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

Aggiornato

  • Symlink pip aggiornato a pip3

Raggiunta obsolescenza

  • Supporto obsoleto per il tipo di istanza P2

  • Python2.7 obsoleto e pacchetti python2.7 correlati rimossi come «python-dev», «python-pip» e «python-tk»

Versione 48.0

Data di rilascio: 2021-12-27

Aggiornato

Versione 47.0

Data di rilascio: 2021-11-24

Aggiornato

  • EFA aggiornato alla versione 1.14.1

Versione 46.0

Data di rilascio: 2021-11-12

Aggiornato

  • Pacchetti Neuron aggiornati da =1.5. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, da aws-neuron-tools =1.6.* a =2.2. aws-neuron-dkms *, =1,6. aws-neuron-runtime-base *, aws-neuron-tools =2,0*.

  • Pacchetto Neuron rimosso aws-neuron-runtime =1.5.* poiché Neuron non ha più un runtime in esecuzione come demone e il runtime è ora integrato con il framework come libreria.

Versione 4.5.0

Data di rilascio: 2021-10-21

Aggiunto

  • I report delle scansioni di sicurezza in formato JSON sono disponibili all'indirizzo//. opt/aws/dlami/info

Versione 44.0

Data di rilascio: 2021-10-08

Changed

  • Per ogni avvio di istanza con DLAMI, verrà aggiunto il tag "aws-dlami-autogenerated-tag-do-not-delete" che consentirà AWS di raccogliere informazioni sul tipo di istanza, l'ID dell'istanza, il tipo DLAMI e il sistema operativo. Nessuna informazione sui comandi utilizzati all'interno del DLAMI viene raccolta o conservata. Non vengono raccolte o conservate altre informazioni sul DLAMI. Per disattivare il tracciamento dell'utilizzo per il tuo DLAMI, aggiungi un tag all' EC2 istanza Amazon durante l'avvio. Il tag deve utilizzare la chiave OPT_OUT_TRACKING con il valore associato impostato su true. Per ulteriori informazioni, consulta Tagga le tue EC2 risorse Amazon.

Sicurezza

  • Versione docker aggiornata a docker-20.10.7-3

Versione 43.0

Data di rilascio: 2021-08-24

Changed

  • «notebook» aggiornato alla versione «6.4.1".

Versione 4.2.0

Data di rilascio: 2021-07-23

Changed

  • Driver Nvidia e versione Fabric manager aggiornati a 450.142.00.

Versione 41.0

Data di rilascio: 2021-06-24

Changed

  • Pacchetti Neuron aggiornati secondo la versione di Neuron v1.14.0

Versione 40.0

Data di rilascio: 2021-06-10

Changed

  • Versione awscli aggiornata alla 1.19.89

Versione 39.0

Data di rilascio: 2021-05-27

Sicurezza

  • Sono stati rimossi i componenti CUDA-10.0 vulnerabili (Visual Profiler, Nsight EE e JRE) dall'installazione CUDA-10.0 (/-10.0). usr/local/cuda

Versione 38.0

Data di rilascio: 2021-05-25

Changed

  • runc aggiornato alla versione più recente

Versione 37.0

Data di rilascio: 2021-04-23

Changed

  • Driver Nvidia Tesla e versione Fabric Manager aggiornati a 450.119.03.

Versione 36.1

Data di rilascio: 2021-04-21

Fixed

  • È stato risolto un problema che rallentava la velocità di avvio dell'istanza.

Versione 36.0

Data di rilascio: 2021-03-24

Aggiunto

  • Aggiunto tensorflow-model-server-neuron per supportare il servizio di modelli neuronali.

Changed

  • Jupyterlab è stato aggiornato alla versione 3.0.8 per python3.

Fixed

  • La vecchia installazione di OpenMPI inusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/è disponibile.

  • Rimuovi la definizione duplicata e inesistente degli ambienti shell che ha inquinato le variabili di ambiente della shell come PATH e LD_LIBRARY_PATH. Come risultato, sono stati aggiunti ~/.dlami e/.sh. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami

Sicurezza

Versione 35.0

Data di rilascio: 2021-03-08

Aggiunto

Versione 34.3

Data di rilascio: 2021-02-25

Fixed

  • È stato corretto un errore di battitura nel MOTD (messaggio del giorno) che mostrava erroneamente la versione 34.1.

Versione 34.2

Data di rilascio: 2021-02-24

Sicurezza

  • Python2 e python3 patchati per CVE-2021-3177

Problema noto

  • C'è un errore di battitura nel MOTD (messaggio del giorno) che mostrava erroneamente la versione 34.1, rilasceremo la versione 34.3 per risolvere questo problema.

Versione 34.0

Data di rilascio: 2021-02-09

Changed

  • Pip aggiunto alla versione 20.3.4 per python2, questa è l'ultima versione pip che supporta python2 e python3.5.

Versione 33.0

Data di rilascio: 2021-01-19

Changed

  • Versione cuDNN aggiornata alla CUDA11 v8.0.5.39 in .0 e .1. CUDA11

Versione 32.0

Data di rilascio: 2020-12-01

Aggiunto

  • Aggiunto CUDA11 .1 con NCCL 2.7.8, cuDNN 8.0.4.30 per AMI Deep Learning (Amazon Linux 2), AMI Deep Learning (Ubuntu 16.04), AMI Deep Learning (Ubuntu 18.04), AMI Deep Learning Base (Ubuntu 16.04), AMI Deep Learning Base (Ubuntu 18.04), AMI Deep Learning Base (Amazon Linux 2).

Versione 3.1.0

Data di rilascio: 2020-11-02

Changed

  • Programma di installazione EFA aggiornato alla versione 1.10.0.

  • Versione cuDNN aggiornata alla v8.0.4.30 per CUDA 11.0.

  • AWS Neuron aggiornato alla versione 1.1

Versione 30.0

Data di rilascio: 2020-10-08

Changed

  • Versioni aggiornate di NVIDIA Driver e Fabric Manager a 450.80.02

  • Aggiornato NCCL alla versione 2.7.8 in versione 2.0 CUDA11

Fixed

  • Risolto un problema in cui yum gestiva il pacchetto python sovrascriveva le installazioni gestite da pip. Gli eseguibili pip, pip3 e pip3.7 sono stati spostati da /parte di questa correzione. usr/binto /usr/local/binas

Versione 29.0

Data di rilascio: 2020-09-11

Changed

  • Driver NVIDIA aggiornato dalla versione 450.51.05 alla 450.51.06

  • Aggiunta la versione 450.51.06 di NVIDIA Fabric Manager

  • EFA aggiornato alla versione 1.9.4

Versione 28.0

Data di rilascio: 2020-08-19

Changed

  • Aggiunto lo stack CUDA 11.0 con NCCL 2.7.6 e cuDNN 8.0.2.39

Versione 27.0

Data di rilascio: 2020-08-07

Changed

  • EFA aggiornato dalla versione 1.7.1 alla 1.9.3 su/opt/amazon/efa

  • Open MPI aggiornato dalla versione 4.0.3 alla 4.0.4 in '/ 'è ancora alla versione 4.0.3 usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun

  • Driver NVIDIA aggiornato da 440.33.01 a 450.51.05

  • Versione NCCL aggiornata da 2.6.4 a 2.7.6 in 0.2 CUDA1

Versione 26.0

Data di rilascio: 2020-08-03

Changed

Fixed

  • È stato corretto un errore che impediva l'apertura del file oggetto condiviso: libopencv_dnn.so.4.2.

Versione 25.0

Data di rilascio: 2020-07-19

Changed

  • Versione EFA aggiornata alla 1.7.1 per supportare NCCL 2.6.4

  • Versione NCCL aggiornata alla 2.6.4 per CUDA 10.2

  • versione awscli aggiornata da 1.16.76 a 1.18.80

  • versione boto3 aggiornata da 1.9.72 a 1.14.3

Versione 24.1

Data di rilascio: 2020-06-14

Changed

  • Versione Docker aggiornata alla 19.03.6

Versione 24.0

Data di rilascio: 2020-05-20

Changed

  • Versione Docker aggiornata alla 19.03.6

Versione 23.0

Data di rilascio: 2020-04-29

Changed

  • Versioni aggiornate del pacchetto python

Versione 22.0

Data di rilascio: 2020-03-04

Changed

  • Aggiunto lo stack CUDA 10.2

  • CUDA 10.0 e 10.1 aggiornati per la versione cuDNN e NCCL