AWS AMI di base di apprendimento approfondito (Amazon Linux 2)

Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.

Formato del nome AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) Versione $ {XX.X}
Versione AMI del driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) $ {XX.X}

EC2 Istanze supportate

Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn

L'AMI include quanto segue:

AWS Servizio supportato: Amazon EC2
Sistema operativo: Amazon Linux 2
Architettura di calcolo: x86
L'ultima versione disponibile è installata per i seguenti pacchetti:
- Kernel Linux: 5.10
- Docker
- AWS CLI v2 a/usr/local/bin/aws2 e AWS CLI v1 a/usr/bin/aws
- Toolkit per contenitori Nvidia:
  - Comando di versione: -V nvidia-container-cli
- Nvidia-docker2:
  - Comando di versione: versione nvidia-docker
Python:/3.7 usr/bin/python
Driver NVIDIA:
- Driver Nvidia per sistema operativo: 550.163.01
- Driver Nvidia proprietario: 550.163.01
Pila NVIDIA CUDA 12.1-12.4:
- Directory di installazione CUDA, NCCL e CUDDN:/-xx.x/ usr/local/cuda
- CUDA predefinito: 12.1
  - PATH/usr/local/cudapunta a CUDA 12.1
  - Aggiornato di seguito le variabili di ambiente:
    
    LD_LIBRARY_PATH da avere/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
    PERCORSO da avere//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
    Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
- Versione NCCL compilata: 2.22.3
- Luogo dei test NCCL:
  - all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
  - Per eseguire i test NCCL, è necessario che LD_LIBRARY_PATH abbia superato gli aggiornamenti seguenti.
    
    I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
    
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
    
    Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.38.0
GDRCopyNvidia: 2.4
AWS OFI NCCL: 1.13.2
- AWS OFI NCCL ora supporta più versioni NCCL con un'unica build
- Percorso di installazione:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 viene aggiunto a LD_LIBRARY_PATH.
Tipo di volume EBS: gp3

Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):

Driver OSS Nvidia:


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \
    --query "Parameter.Value" \
    --output text

Driver Nvidia proprietario:


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \
    --query "Parameter.Value" \
    --output text

Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):

Driver OSS Nvidia:


aws ec2 describe-images --region us-east-1 \
    --owners amazon \
    --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Driver Nvidia proprietario:


aws ec2 describe-images --region us-east-1 \
    --owners amazon \
    --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Note

NVIDIA Container Toolkit 1.17.4

Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.

Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 2025-02-04)

EFA ora include il plugin OFI NCCL, che ora può essere trovato in/ AWS -ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.

Politica di supporto

Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning o per ridurre le dimensioni dell'AMI in una versione futura, senza preavviso. Rimuoviamo le versioni CUDA AMIs se non vengono utilizzate da nessuna versione del framework supportata.

EC2 istanze con più schede di rete

Molti tipi di istanze che supportano EFA hanno anche più schede di rete.
DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.
- Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.
- Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.
- Per ulteriori informazioni, consulta la guida EFA qui.

Istanze P5/P5e

Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Istanze P5en

P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

La versione del kernel viene bloccata utilizzando il comando:
```
sudo yum versionlock kernel*
```
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
```
sudo yum versionlock delete kernel*
sudo yum update -y
```
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.

Data di rilascio: 2025-04-22

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 69.3
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 67.0

Aggiornato

Driver Nvidia aggiornato dalla versione 550.144.03 alla 550.163.01 come indicato nel NVIDIA GPU Display Driver Security Bulletin di aprile 2025 CVEs

Data di rilascio: 2025-02-17

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.5
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.3

Aggiornato

Aggiornamento di NVIDIA Container Toolkit dalla versione 1.17.3 alla versione 1.17.4. Per ulteriori informazioni, consulta la pagina delle note di rilascio qui:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v

Rimosso

Sono state rimosse le librerie di spazio utente cuobj e nvdisasm fornite dal toolkit NVIDIA CUDA e CVEs presenti nel NVIDIA CUDA Toolkit Security Bulletin del 18 febbraio 2025

Data di rilascio: 2025-02-04

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.4
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.1

Aggiornato

Versione EFA aggiornata da 1.37.0 a 1.38.0

Data di rilascio: 2025-01-17

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.3
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.0

Aggiornato

Driver Nvidia aggiornato dalla versione 550.127.05 alla 550.144.03 come indicato nel NVIDIA GPU Display Driver Security Bulletin di gennaio 2025 CVEs

Data di rilascio: 2025-01-06

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.2
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.9

Aggiornato

EFA aggiornato dalla versione 1.34.0 alla 1.37.0
OFI NCCL aggiornato AWS dalla versione 1.11.0 alla 1.13.0

Data di rilascio: 2024-12-09

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.1
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.8

Aggiornato

Nvidia Container Toolkit aggiornato dalla versione 1.17.0 alla 1.17.3

Data di rilascio: 2024-11-09

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.9
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.6

Aggiornato

Nvidia Container Toolkit è stato aggiornato dalla versione 1.16.2 alla 1.17.0, risolvendo la vulnerabilità di sicurezza CVE-2024-0134.

Data di rilascio: 2024-10-22

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.7
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.4

Aggiornato

Driver Nvidia aggiornato dalla versione 550.90.07 alla 550.127.05 come indicato nel NVIDIA GPU Display Security Bulletin di ottobre 2024 CVEs

Data di rilascio: 2024-10-03

Nomi AMI

Versione AMI del driver Nvidia di base per Deep Learning (Amazon Linux 2)
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.2

Aggiornato

Nvidia Container Toolkit è stato aggiornato dalla versione 1.16.1 alla 1.16.2, risolvendo la vulnerabilità di sicurezza CVE-2024-0133.

Data di rilascio: 2024-08-27

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.0

Aggiornato

Driver Nvidia e Fabric Manager aggiornati dalla versione 535.183.01 a 550.90.07
- Rimosso il requisito della shell multiutente da Fabric Manager in base ai consigli di Nvidia
- Per ulteriori informazioni, consulta i problemi noti relativi al driver Tesla 550.90.07 qui
Versione EFA aggiornata da 1.32.0 a 1.34.0
NCCL aggiornato all'ultima versione 2.22.3 per tutte le versioni CUDA
- CUDA 12.1, 12.2 aggiornato da 2.18.5+ 2. CUDA12
- CUDA 12.3 aggiornato CUDA12 da 2.21.5+ .4

Aggiunto

Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda
Aggiunto il supporto per le istanze P5e. EC2

Rimosso

Rimosso lo stack CUDA Toolkit versione 11.8 presente nella directory/-11.8 usr/local/cuda

Data di rilascio: 2024-08-19

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 66.3

Aggiunto

È stato aggiunto il supporto per le istanze EC2 G6e.

Data di rilascio: 2024-06-06

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 65.4
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.9

Aggiornato

Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08

Data di rilascio: 2024-05-02

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 64.7
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.2

Aggiornato

Versione EFA aggiornata dalla versione 1.30 alla versione 1.32
Plugin AWS OFI NCCL aggiornato dalla versione 1.7.4 alla versione 1.9.1
Nvidia Container Toolkit aggiornato dalla versione 1.13.5 alla versione 1.15.0

Aggiunto

Aggiunto lo stack CUDA12 .3 con CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7

La versione 1.15.0 NON include i nvidia-container-runtime pacchetti e nvidia-docker2. Si consiglia di utilizzare i nvidia-container-toolkit pacchetti direttamente seguendo i documenti del toolkit contenitore Nvidia.

Rimosso

Sono stati rimossi gli CUDA11 stack .7, CUDA12 .0 presenti in /-12.0 usr/local/cuda-11.7 and /usr/local/cuda
Il pacchetto nvidia-docker2 e il relativo comando nvidia-docker sono stati rimossi come parte dell'aggiornamento del toolkit container Nvidia dalla 1.13.5 alla 1.15.0 che NON include i pacchetti e nvidia-docker2. nvidia-container-runtime

Data di rilascio: 2024-04-04

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 64.0

Aggiunto

Per il driver OSS Nvidia DLAMIs, è stato aggiunto il supporto per le istanze G6 e Gr6 EC2

Data di rilascio: 2024-03-29

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 62.3
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.2

Aggiornato

Driver Nvidia aggiornato da 535.104.12 a 535.161.08 sia nel driver Nvidia proprietario che in quello OSS. DLAMIs
Le nuove istanze supportate per ogni DLAMI sono le seguenti:
- Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn
- Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, P4d, P4de, P5.

Rimosso

Rimosso il EC2 supporto per le istanze G4dn, G5, G3.16x dal driver proprietario Nvidia DLAMI.

Data di rilascio: 2024-03-20

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 63.1

Aggiunto

Aggiunto awscliv2 nell'AMI come usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws /on OSS Nvidia Driver AMI

Data di rilascio: 2024-03-13

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 63.0

Aggiornato

Driver OSS Nvidia DLAMI aggiornato con supporto G4dn e G5, in base al quale il supporto attuale è il seguente:
- L'AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) supporta P3, P3dn, G3, G4dn, G5.
- L'AMI driver Nvidia OSS di Deep Learning Base (Amazon Linux 2) supporta G4dn, G5, P4, P5.
Si consiglia di utilizzare i driver DLAMIs OSS Nvidia per G4dn, G5, P4, P5.

Data di rilascio: 2024-02-13

Nomi AMI

Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 62.1
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 62.1

Aggiornato

Driver OSS Nvidia aggiornato da 535.129.03 a 535.154.05
EFA aggiornato da 1.29.0 a 1.30.0
AWS OFI NCCL aggiornato da 1.7.3-aws a 1.7.4-aws

Data di rilascio: 2024-02-01

Nome AMI: Nvidia Driver AMI proprietario di Deep Learning Base (Amazon Linux 2) versione 62.0

Sicurezza

Versione aggiornata del pacchetto runc per consumare la patch per CVE-2024-21626.

Versione 61.4

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 61.4

Aggiornato

Driver OSS Nvidia aggiornato da 535.104.12 a 535.129.03

Versione 61.0

Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 61.4

Aggiornato

EFA aggiornato dalla versione 1.26.1 alla 1.29.0
GDRCopy aggiornato dalla versione 2.3 alla 2.4

Aggiunto

AWS Deep Learning AMI (DLAMI) è suddiviso in due gruppi distinti:
- DLAMI che utilizza il driver proprietario Nvidia (per supportare P3, P3dn, G3, G5, G4dn).
- DLAMI che utilizza il driver Nvidia OSS per abilitare EFA (per supportare P4, P5).
Per ulteriori informazioni sulla divisione DLAMI, fare riferimento all'annuncio pubblico.
Per AWS CLI le interrogazioni, vedere il punto elenco Query AMI-ID AWSCLI with (ad esempio la regione è us-east-1)

Versione 60.6

Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.6

Aggiornato

AWS Plugin OFI NCCL aggiornato dalla versione 1.7.2 alla versione 1.7.3
Directory CUDA 12.0-12.1 aggiornate con la versione NCCL 2.18.5
CUDA12.1 aggiornata come versione CUDA predefinita
- LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
- Per i clienti che desiderano passare a una versione CUDA diversa, definisci le variabili LD_LIBRARY_PATH e PATH di conseguenza.

Aggiunto

Il Kernel Live Patching è ora abilitato. Il live patching consente ai clienti di applicare vulnerabilità di sicurezza e patch di bug critici a un kernel Linux in esecuzione, senza riavvii o interruzioni delle applicazioni in esecuzione. Tieni presente che il supporto per il live patching per il kernel 5.10.192 terminerà il 30/11/23.

Versione 60.5

Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.5

Aggiornato

Driver NVIDIA aggiornato da 535.54.03 a 535.104.12

Questo driver più recente corregge le modifiche principali dell'ABI NVML riscontrate nel driver 535.54.03, nonché la regressione del driver trovata nel driver 535.86.10 che interessava i toolkit CUDA sulle istanze P5. Consulta le seguenti note di rilascio di NVIDIA per i dettagli sulle correzioni:
- 4235941 - Correzione della modifica di NVML ABI Breaking
- 4228552 - Correzione dell'errore CUDA Toolkit
Directory CUDA 12.2 aggiornate con NCCL 2.18.5
EFA aggiornato dalla versione 1.24.1 alla versione più recente 1.26.1

Aggiunto

Aggiunto .2 a/-12.2 CUDA12 usr/local/cuda

Rimosso

Rimosso il supporto per CUDA 11.5 e CUDA 11.6

Versione 60.2

Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.2

Aggiornato

aws-ofi-ncclPlugin aggiornato dalla v1.7.1 alla v1.7.2

Versione 60.0

Data di rilascio: 2023-08-11

Aggiunto

Questa AMI ora fornisce supporto per la funzionalità di training multinodo su P5 e tutte le istanze supportate in precedenza EC2
Per le EC2 istanze P5, si consiglia di utilizzare NCCL 2.18 ed è stato aggiunto a .0 e .1. CUDA12 CUDA12

Rimosso

È stato rimosso il supporto per .5. CUDA11

Versione 5.9.2

Data di rilascio: 2023-08-08

Rimosso

CUDA-11.3 e CUDA-11.4 rimossi

Versione 59.1

Data di rilascio: 2023-08-03

Aggiornato

Plugin AWS OFI NCCL aggiornato alla versione 1.7.1
Made CUDA11 .8 come predefinito come PyTorch 2.0 supporta 11.8 e per l'istanza P5 EC2 , si consiglia di utilizzare >= .8 CUDA11
- LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
- Per qualsiasi versione di cuda diversa, definisci LD_LIBRARY_PATH di conseguenza.

Fixed

Risolto il problema di caricamento dei pacchetti di Nvidia Fabric Manager (FM) menzionato nella precedente data di rilascio 2023-07-19.

Versione 58.9

Data di rilascio: 2023-07-19

Aggiornato

Driver Nvidia aggiornato da 525.85.12 a 535.54.03
Programma di installazione EFA aggiornato da 1.22.1 a 1.24.1

Aggiunto

Sono state aggiunte modifiche allo stato c per disabilitare lo stato di inattività del processore impostando lo stato c massimo su C1. Questa modifica viene effettuata impostando `intel_idle.max_cstate=1 processor.max_cstate=1` negli argomenti di avvio di linux nel file/etc/default/grub
AWS EC2 Supporto per istanze P5:
- Aggiunto il supporto dell' EC2 istanza P5 per i flussi di lavoro che utilizzano un singolo nodo/istanza. Il supporto multinodo (ad esempio per la formazione multinodo) tramite EFA (Elastic Fabric Adapter) e il plug-in AWS OFI NCCL verrà aggiunto in una prossima versione.
- Utilizza CUDA>=11.8 per prestazioni ottimali.
- Problema noto: il caricamento del pacchetto Nvidia Fabric Manager (FM) richiede tempo per essere caricato su P5, i clienti devono attendere 2-3 minuti prima che FM si carichi dopo aver avviato l'istanza P5. Per verificare se FM è avviato, esegui il comando sudo systemctl is-active nvidia-fabricmanager, dovrebbe tornare attivo prima di iniziare qualsiasi flusso di lavoro. Questo problema verrà risolto nella prossima versione.

Versione 58.0

Data di rilascio: 2023-05-19

Rimosso

È stato rimosso lo stack CUDA11 .0-11.2 secondo la politica di supporto menzionata nella sezione superiore di questo documento.

Versione 5.7.3

Data di rilascio: 2023-04-06

Aggiunto

GDRCopy Aggiunto Nvidia 2.3

Versione 56.8

Data di rilascio: -09

Aggiornato

Driver NVIDIA aggiornato da 515.65.01 a 525.85.12

Aggiunto

Aggiunto usr/local/cuda cuda-11.8 a/-11.8/

Versione 56.0

Data di rilascio: 2022-12-06

Aggiornato

Versione EFA aggiornata da 1.17.2 a 1.19.0

Versione 55.0

Data di rilascio: 2022-11-04

Aggiornato

Driver NVIDIA aggiornato da 510.47.03 a 515.65.01

Aggiunto

Aggiunto usr/local/cuda cuda-11.7 in/-11.7/

Versione 54.0

Data di rilascio: 2022-09-15

Aggiornato

Versione EFA aggiornata da 1.16.0 a 1.17.2

Versione 53.3

Data di rilascio: 2022-05-25

Aggiornato

Aggiornato alla versione 1.15.2 aws-efa-installer
Aggiornato aws-ofi-nccl alla versione 1.3.0-aws che include la topologia per p4de.24xlarge.

Aggiunto

Questa versione aggiunge il supporto per EC2 le istanze p4de.24xlarge.

Versione 53.0

Data di rilascio: 2022-04-28

Aggiunto

CloudWatch Agente Amazon aggiunto
Aggiunti tre servizi systemd che utilizzano file json predefiniti disponibili su path/opt/aws/amazon-cloudwatch-agent/etc/per configurare i parametri della GPU utilizzando l'utente linux cwagent
- dlami-cloudwatch-agent@minimal
  - Comandi per abilitare le metriche della GPU:
    
    sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
  - Crea le seguenti metriche: utilization_gpu utilization_memory
- dlami-cloudwatch-agent@partial
  - Comandi per abilitare le metriche della GPU:
    
    sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
  - Crea le seguenti metriche:utilization_gpu,,,, utilization_memory memory_total memory_used memory_free
- dlami-cloudwatch-agent@all
  - Comandi per abilitare le metriche della GPU:
    
    sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
  - Crea tutte le metriche GPU disponibili

Versione 52.0

Data di rilascio: 2022-03-08

Aggiornato

Versione del Kernel aggiornata alla 5.10

Versione 51.0

Data di rilascio: 2022-03-04

Aggiornato

Driver Nvidia aggiornato alla versione 510.47.03

Versione 50.0

Data di rilascio: 2022-02-17

Aggiornato

Bloccati aws-neuron-dkms e tensorflow-model-server-neuron man mano che vengono aggiornati alle versioni più recenti che non sono supportate dai pacchetti Neuron presenti nell'AMI
- Comandi se il cliente desidera sbloccare il pacchetto per aggiornarlo alla versione più recente: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron

Versione 49.0

Data di rilascio: 2022-01-13

Aggiunto

Aggiunto CUDA11 2.2 con i seguenti componenti:
- cuDNN v8.1.1.33
- NCCL 2.8.4
- CUDA 11.2.2

Aggiornato

Symlink pip aggiornato a pip3

Raggiunta obsolescenza

Supporto obsoleto per il tipo di istanza P2
Python2.7 obsoleto e pacchetti python2.7 correlati rimossi come «python-dev», «python-pip» e «python-tk»

Versione 48.0

Data di rilascio: 2021-12-27

Aggiornato

Org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar è stato rimosso dalle versioni di cuda poiché non viene utilizzato e non presenta rischi per gli utenti che dispongono dei file Log4j. Per ulteriori informazioni, vedere _id/5294. https://nvidia.custhelp.com/app/ answers/detail/a

Versione 47.0

Data di rilascio: 2021-11-24

Aggiornato

EFA aggiornato alla versione 1.14.1

Versione 46.0

Data di rilascio: 2021-11-12

Aggiornato

Pacchetti Neuron aggiornati da =1.5. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, da aws-neuron-tools =1.6.* a =2.2. aws-neuron-dkms *, =1,6. aws-neuron-runtime-base *, aws-neuron-tools =2,0*.
Pacchetto Neuron rimosso aws-neuron-runtime =1.5.* poiché Neuron non ha più un runtime in esecuzione come demone e il runtime è ora integrato con il framework come libreria.

Versione 4.5.0

Data di rilascio: 2021-10-21

Aggiunto

I report delle scansioni di sicurezza in formato JSON sono disponibili all'indirizzo//. opt/aws/dlami/info

Versione 44.0

Data di rilascio: 2021-10-08

Changed

Per ogni avvio di istanza con DLAMI, verrà aggiunto il tag "aws-dlami-autogenerated-tag-do-not-delete" che consentirà AWS di raccogliere informazioni sul tipo di istanza, l'ID dell'istanza, il tipo DLAMI e il sistema operativo. Nessuna informazione sui comandi utilizzati all'interno del DLAMI viene raccolta o conservata. Non vengono raccolte o conservate altre informazioni sul DLAMI. Per disattivare il tracciamento dell'utilizzo per il tuo DLAMI, aggiungi un tag all' EC2 istanza Amazon durante l'avvio. Il tag deve utilizzare la chiave OPT_OUT_TRACKING con il valore associato impostato su true. Per ulteriori informazioni, consulta Tagga le tue EC2 risorse Amazon.

Sicurezza

Versione docker aggiornata a docker-20.10.7-3

Versione 43.0

Data di rilascio: 2021-08-24

Changed

«notebook» aggiornato alla versione «6.4.1".

Versione 4.2.0

Data di rilascio: 2021-07-23

Changed

Driver Nvidia e versione Fabric manager aggiornati a 450.142.00.

Versione 41.0

Data di rilascio: 2021-06-24

Changed

Pacchetti Neuron aggiornati secondo la versione di Neuron v1.14.0

Versione 40.0

Data di rilascio: 2021-06-10

Changed

Versione awscli aggiornata alla 1.19.89

Versione 39.0

Data di rilascio: 2021-05-27

Sicurezza

Sono stati rimossi i componenti CUDA-10.0 vulnerabili (Visual Profiler, Nsight EE e JRE) dall'installazione CUDA-10.0 (/-10.0). usr/local/cuda

Versione 38.0

Data di rilascio: 2021-05-25

Changed

runc aggiornato alla versione più recente

Versione 37.0

Data di rilascio: 2021-04-23

Changed

Driver Nvidia Tesla e versione Fabric Manager aggiornati a 450.119.03.

Versione 36.1

Data di rilascio: 2021-04-21

Fixed

È stato risolto un problema che rallentava la velocità di avvio dell'istanza.

Versione 36.0

Data di rilascio: 2021-03-24

Aggiunto

Aggiunto tensorflow-model-server-neuron per supportare il servizio di modelli neuronali.

Changed

Jupyterlab è stato aggiornato alla versione 3.0.8 per python3.

Fixed

La vecchia installazione di OpenMPI inusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/è disponibile.
Rimuovi la definizione duplicata e inesistente degli ambienti shell che ha inquinato le variabili di ambiente della shell come PATH e LD_LIBRARY_PATH. Come risultato, sono stati aggiunti ~/.dlami e/.sh. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami

Sicurezza

Crittografia dei pacchetti aggiornata per l'indirizzo CVE-2020-36242

Versione 35.0

Data di rilascio: 2021-03-08

Aggiunto

Aggiunta l'installazione di TensorRT CUDA 11.0

Versione 34.3

Data di rilascio: 2021-02-25

Fixed

È stato corretto un errore di battitura nel MOTD (messaggio del giorno) che mostrava erroneamente la versione 34.1.

Versione 34.2

Data di rilascio: 2021-02-24

Sicurezza

Python2 e python3 patchati per CVE-2021-3177

Problema noto

C'è un errore di battitura nel MOTD (messaggio del giorno) che mostrava erroneamente la versione 34.1, rilasceremo la versione 34.3 per risolvere questo problema.

Versione 34.0

Data di rilascio: 2021-02-09

Changed

Pip aggiunto alla versione 20.3.4 per python2, questa è l'ultima versione pip che supporta python2 e python3.5.

Versione 33.0

Data di rilascio: 2021-01-19

Changed

Versione cuDNN aggiornata alla CUDA11 v8.0.5.39 in .0 e .1. CUDA11

Versione 32.0

Data di rilascio: 2020-12-01

Aggiunto

Aggiunto CUDA11 .1 con NCCL 2.7.8, cuDNN 8.0.4.30 per AMI Deep Learning (Amazon Linux 2), AMI Deep Learning (Ubuntu 16.04), AMI Deep Learning (Ubuntu 18.04), AMI Deep Learning Base (Ubuntu 16.04), AMI Deep Learning Base (Ubuntu 18.04), AMI Deep Learning Base (Amazon Linux 2).

Versione 3.1.0

Data di rilascio: 2020-11-02

Changed

Programma di installazione EFA aggiornato alla versione 1.10.0.
Versione cuDNN aggiornata alla v8.0.4.30 per CUDA 11.0.
AWS Neuron aggiornato alla versione 1.1

Versione 30.0

Data di rilascio: 2020-10-08

Changed

Versioni aggiornate di NVIDIA Driver e Fabric Manager a 450.80.02
Aggiornato NCCL alla versione 2.7.8 in versione 2.0 CUDA11

Fixed

Risolto un problema in cui yum gestiva il pacchetto python sovrascriveva le installazioni gestite da pip. Gli eseguibili pip, pip3 e pip3.7 sono stati spostati da /parte di questa correzione. usr/binto /usr/local/binas

Versione 29.0

Data di rilascio: 2020-09-11

Changed

Driver NVIDIA aggiornato dalla versione 450.51.05 alla 450.51.06
Aggiunta la versione 450.51.06 di NVIDIA Fabric Manager
EFA aggiornato alla versione 1.9.4

Versione 28.0

Data di rilascio: 2020-08-19

Changed

Aggiunto lo stack CUDA 11.0 con NCCL 2.7.6 e cuDNN 8.0.2.39

Versione 27.0

Data di rilascio: 2020-08-07

Changed

EFA aggiornato dalla versione 1.7.1 alla 1.9.3 su/opt/amazon/efa
Open MPI aggiornato dalla versione 4.0.3 alla 4.0.4 in '/ 'è ancora alla versione 4.0.3 usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun
Driver NVIDIA aggiornato da 440.33.01 a 450.51.05
Versione NCCL aggiornata da 2.6.4 a 2.7.6 in 0.2 CUDA1

Versione 26.0

Data di rilascio: 2020-08-03

Changed

AWS OFI NCCL aggiornato alla versione più recente, vedi qui per maggiori dettagli.
Cuda 8.0/9.0/9.2 sono stati rimossi dall'AMI

Fixed

È stato corretto un errore che impediva l'apertura del file oggetto condiviso: libopencv_dnn.so.4.2.

Versione 25.0

Data di rilascio: 2020-07-19

Changed

Versione EFA aggiornata alla 1.7.1 per supportare NCCL 2.6.4
Versione NCCL aggiornata alla 2.6.4 per CUDA 10.2
versione awscli aggiornata da 1.16.76 a 1.18.80
versione boto3 aggiornata da 1.9.72 a 1.14.3

Versione 24.1

Data di rilascio: 2020-06-14

Changed

Versione Docker aggiornata alla 19.03.6

Versione 24.0

Data di rilascio: 2020-05-20

Changed

Versione Docker aggiornata alla 19.03.6

Versione 23.0

Data di rilascio: 2020-04-29

Changed

Versioni aggiornate del pacchetto python

Versione 22.0

Data di rilascio: 2020-03-04

Changed

Aggiunto lo stack CUDA 10.2
CUDA 10.0 e 10.1 aggiornati per la versione cuDNN e NCCL

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

AMI GPU di base (Ubuntu 22.04)

AMI Qualcomm di base (Amazon Linux 2)