Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS AMI GPU di base di deep learning (Ubuntu 20.04)
Avviso di esaurimento del supporto
Ubuntu Linux 20.04 LTS raggiungerà la fine della sua finestra LTS quinquennale il 31 maggio 2025 e non sarà più supportato dal suo fornitore. Di conseguenza, l'AMI GPU AWS Deep Learning Base (Ubuntu 20.04) non avrà aggiornamenti dopo il 31 maggio 2025. Le versioni precedenti continueranno a essere disponibili. Tieni presente che qualsiasi AMI rilasciata pubblicamente viene dichiarata obsoleta EC2 dopo 2 anni dalla data di creazione. Per ulteriori informazioni, consulta Deprecare un EC2 AMI Amazon.
Per 3 mesi, fino al 31 agosto 2025, verrà fornito supporto solo per problemi di funzionalità (non per le patch di sicurezza).
Gli utenti di Ubuntu 20.04 DLAMI devono passare AWS all'AMI GPU Deep Learning Base (Ubuntu 22.04)AWS o all'AMI GPU
Deep Learning Base (Ubuntu 24.04 ). In alternativa, è possibile utilizzare l'AMI AWS Deep Learning Base (Amazon Linux 2023) .
Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.
Formato del nome AMI
AMI AMI GPU Nvidia Driver OSS Deep Learning (Ubuntu 20.04) $ {YYYY-MM-DD}
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}
EC2 Istanze supportate
Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn
L'AMI include quanto segue:
AWS Servizio supportato: Amazon EC2
Sistema operativo: Ubuntu 20.04
Architettura di calcolo: x86
L'ultima versione disponibile è installata per i seguenti pacchetti:
Kernel Linux 5.15
FSx Lustro
Docker
AWS CLI v2 in/usr/local/bin/aws2 e AWS CLI v1 in/usr/bin/aws
NVIDIA DCGM
Toolkit per container Nvidia:
Comando di versione: -V nvidia-container-cli
Nvidia-docker2:
Comando di versione: versione nvidia-docker
Driver NVIDIA:
Driver Nvidia per sistema operativo: 550.163.01
Driver Nvidia proprietario: 550.163.01
Pila NVIDIA CUDA 11.7, 12.1-12.4:
Directory di installazione CUDA, NCCL e cudDN:/-xx.x/ usr/local/cuda
Esempiousr/local/cuda:/-12.1/
Versione NCCL compilata: 2.22.3+ .4 CUDA12
CUDA predefinito: 12.1
PATH/usr/local/cudapunta a CUDA 12.1
Aggiornato di seguito le variabili di ambiente:
LD_LIBRARY_PATH da avere/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PERCORSO da avere//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Luogo dei test NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Per eseguire i test NCCL, è necessario che LD_LIBRARY_PATH abbia superato gli aggiornamenti seguenti.
I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.39.0
GDRCopyNvidia: 2.4
AWS Plugin OFI NCCL: viene installato come parte di EFA Installer-AWS
AWS OFI NCCL ora supporta più versioni NCCL con un'unica build
Il percorso di installazione:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libviene aggiunto a LD_LIBRARY_PATH.
Verifica il percorso per ring, message_transfer:/opt/aws-ofi-nccl/tests
Tipo di volume EBS: gp3
Python:/3.9 usr/bin/python
NVMe Posizione dell'Instance Store (sulle EC2 istanze supportate):/opt/dlami/nvme
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textDriver Nvidia proprietario:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textDriver Nvidia proprietario:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
NVIDIA Container Toolkit 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 2025-02-04)
EFA ora include il plugin OFI NCCL, che ora può essere trovato in/ AWS -ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.
Politica di supporto
I componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning
EC2 istanze con più schede di rete
Molti tipi di istanze che supportano EFA hanno anche più schede di rete.
DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.
Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.
Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.
Istanze P5/P5e
Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5en
P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versione del kernel viene bloccata utilizzando il comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsConsigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsPer ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-04-24
Nomi AMI
API GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20250424
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250424
Aggiornato
Data di rilascio: 2025-02-17
Nomi AMI
AMI GPU Nvidia Driver OSS di base di deep learning (Ubuntu 20.04) 20250214
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250214
Aggiornato
Aggiornamento di NVIDIA Container Toolkit dalla versione 1.17.3 alla versione 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Rimosso
Data di rilascio: 2025-02-04
Nomi AMI
AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20250204
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250204
Aggiornato
Versione EFA aggiornata da 1.37.0 a 1.38.0
EFA ora include il plugin AWS OFI NCCL, che ora può essere trovato in/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.
Rimosso
Il pacchetto emacs è stato rimosso da queste. DLAMIs I clienti possono installare emacs da GNU emacs. https://www.gnu.org/software/emacs/download.html
Data di rilascio: 2025-01-17
Nomi AMI
API GPU Nvidia Driver OSS Deep Learning (Ubuntu 20.04) 20250117
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20250117
Aggiornato
Data di rilascio: 2024-12-09
Nomi AMI
AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20241206
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20241206
Aggiornato
Nvidia Container Toolkit aggiornato dalla versione 1.17.0 alla 1.17.3
Data di rilascio: 2024-11-22
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122
Aggiunto
È stato aggiunto il supporto per le istanze P5en. EC2
Aggiornato
EFA Installer aggiornato dalla versione 1.35.0 alla 1.37.0
Aggiorna il plugin AWS OFI NCCL dalla versione 1.12.1-aws a 1.13.0-aws
Data di rilascio: 2024-10-26
Nomi AMI
AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20241025
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20241025
Aggiornato
Data di rilascio: 2024-10-03
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927
Aggiornato
Nvidia Container Toolkit aggiornato dalla versione 1.16.1 alla 1.16.2
Data di rilascio: 2024-08-27
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827
Aggiornato
Driver Nvidia e Fabric Manager aggiornati dalla versione 535.183.01 a 550.90.07
Versione EFA aggiornata da 1.32.0 a 1.34.0
NCCL aggiornato all'ultima versione 2.22.3 per tutte le versioni CUDA
CUDA 11.7 aggiornato dalla versione 2.16.2+ 7 CUDA11
CUDA 12.1, 12.2 aggiornato dalla 2.18.5+ .2 CUDA12
CUDA 12.3 aggiornato dalla versione CUDA12 2.21.5+ .4
Aggiunto
Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda
Aggiunto il supporto per l'istanza P5e. EC2
Rimosso
Rimosso lo stack CUDA Toolkit versione 11.8 presente nella directory/-11.8 usr/local/cuda
Data di rilascio: 2024-08-19
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816
Aggiunto
Data di rilascio: 2024-06-06
Nomi AMI
API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240606
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240606
Aggiornato
Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08
Data di rilascio: 2024-05-15
Nomi AMI
API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240515
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240515
Aggiunto
Aggiunto lo stack CUDA11 .7 nella directory/usr/local/cuda-11.7 con CUDA11 .7, NCCL 2.16.2, cuDNN 8.7.0 poiché 1.13 supporta .7. PyTorch CUDA11
Data di rilascio: 2024-05-02
Nomi AMI
API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240502
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240502
Aggiornato
Versione EFA aggiornata dalla versione 1.30 alla versione 1.32
Plugin AWS OFI NCCL aggiornato dalla versione 1.7.4 alla versione 1.9.1
Nvidia Container Toolkit aggiornato dalla versione 1.13.5 alla versione 1.15.0
La versione 1.15.0 NON include i pacchetti e nvidia-docker2. nvidia-container-runtime Si consiglia di utilizzare i nvidia-container-toolkit pacchetti direttamente seguendo i documenti del toolkit contenitore Nvidia.
Aggiunto
Aggiunto lo stack CUDA12 .3 con CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7
Rimosso
CUDA11Rimossi CUDA12 gli stack .7, .0 presenti usr/local/cuda-11.7 and /usr/local/cuda nelle directory /-12.0
Il pacchetto nvidia-docker2 e il relativo comando nvidia-docker sono stati rimossi come parte dell'aggiornamento del toolkit container Nvidia dalla 1.13.5 alla 1.15.0 che NON include i pacchetti e nvidia-docker2.
nvidia-container-runtime
Data di rilascio: 2024-04-04
Nomi AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404
Aggiunto
Per il driver OSS Nvidia DLAMIs, è stato aggiunto il supporto per le istanze G6 e Gr6. EC2 Per ulteriori informazioni, consulta la sezione Istanze GPU consigliate.
Data di rilascio: 2024-03-29
Nomi AMI
API GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20240326
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240326
Aggiornato
Driver Nvidia aggiornato da 535.104.12 a 535.161.08 sia nel driver Nvidia proprietario che in quello OSS. DLAMIs
Rimosso il supporto per le EC2 istanze G4dn e G5 dal driver proprietario Nvidia DLAMI.
Le nuove istanze supportate per ogni DLAMI sono le seguenti:
Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, P4d, P4de, P5.
Data di rilascio: 2024-03-20
Nomi AMI
API GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20240318
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240318
Aggiunto
Aggiunto
awscliv2nell'AMI in/usr/local/bin/aws2, insieme aawscliv1usr/bin/aws /su Nvidia Driver AMI proprietari e OSS
Data di rilascio: 2024-03-14
Nome AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314
Aggiornato
Driver OSS Nvidia DLAMI aggiornato con supporto G4dn e G5, in base al quale il supporto attuale è il seguente:
L'AMI driver Nvidia proprietaria di Deep Learning Base (Ubuntu 20.04) supporta P3, P3dn, G3, G5, G4dn.
L'AMI driver Nvidia OSS Deep Learning Base (Ubuntu 20.04) supporta G5, G4dn, P4, P5.
Si consiglia di utilizzare i driver OSS Nvidia per DLAMIs G5, G4dn, P4, P5.
Data di rilascio: 2024-02-12
Nomi AMI
API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240208
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240208
Aggiornato
AWS Il plugin OFI NCCL è aggiornato dalla 1.7.3 alla 1.7.4
Data di rilascio: 2024-02-01
Nomi AMI
API GPU Nvidia con sistema operativo e apprendimento approfondito (Ubuntu 20.04) 20240201
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20240201
Sicurezza
Data di rilascio: 2023-12-04
Nomi AMI
AMI GPU Nvidia Driver OSS di Deep Learning (Ubuntu 20.04) 20231204
AMI GPU Nvidia Driver proprietaria di Deep Learning Base (Ubuntu 20.04) 20231204
Aggiunto
AWS Deep Learning AMI (DLAMI) è suddiviso in due gruppi distinti:
DLAMI che utilizza il driver proprietario Nvidia (per supportare P3, P3dn, G3, G5, G4dn).
DLAMI che utilizza il driver Nvidia OSS per abilitare EFA (per supportare P4, P5).
Per ulteriori informazioni sulla suddivisione DLAMI, consulta Modifiche importanti a DLAMI.
AWS CLI le query di cui sopra sono elencate sotto il punto elenco Query AMI-ID AWSCLI with (ad esempio la regione è us-east-1)
Aggiornato
EFA aggiornato dalla versione 1.26.1 alla versione 1.29.0
GDRCopy aggiornato dalla versione 2.3 alla 2.4
Data di rilascio: 2023-10-18
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20231018
Aggiornato
AWS Plugin OFI NCCL aggiornato dalla versione 1.7.2 alla versione 1.7.3
Directory CUDA 12.0-12.1 aggiornate con la versione NCCL 2.18.5 per corrispondere a CUDA 12.2
CUDA12.1 aggiornata come versione CUDA predefinita
LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Per i clienti che desiderano passare a una versione CUDA diversa, definisci le variabili LD_LIBRARY_PATH e PATH di conseguenza.
Data di rilascio: 2023-10-02
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20231002
Aggiornato
Driver NVIDIA aggiornato da 535.54.03 a 535.104.12
Questo driver più recente corregge le modifiche principali dell'ABI NVML rilevate nella versione del driver 535.54.03, nonché la regressione del driver rilevata nella versione 535.86.10 che interessava i toolkit CUDA sulle istanze P5. Consulta le seguenti note di rilascio di NVIDIA per i dettagli sulle correzioni:
Fai riferimento alle seguenti note di rilascio di NVIDIA per i dettagli sulle correzioni:
Directory CUDA 12.2 aggiornate con NCCL 2.18.5
EFA aggiornato dalla versione 1.24.1 alla più recente 1.26.1
Aggiunto
Aggiunto .2 a/-12.2 CUDA12 usr/local/cuda
Rimosso
Rimosso il supporto per CUDA 11.5 e CUDA 11.6
Data di rilascio: 2023-09-26
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230926
Aggiunto
Sono state aggiunte modifiche a net.naming-scheme per risolvere un problema imprevedibile di denominazione delle interfacce di rete (link) riscontrato su P5.
Questa modifica viene effettuata impostando net.naming-scheme=v247 negli argomenti di avvio di linux nel file/etc/default/grub
Data di rilascio: 2023-08-30
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230830
Aggiornato
Plugin aggiornato aws-ofi-nccl dalla v1.7.1 alla v1.7.2
Data di rilascio: 2023-08-11
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230811
Aggiunto
Questa AMI ora fornisce supporto per la funzionalità di training multinodo su P5 e tutte le istanze supportate in precedenza EC2 .
Per l' EC2 istanza P5, si consiglia di utilizzare NCCL 2.18 ed è stato aggiunto a .0 e .1. CUDA12 CUDA12
Rimosso
È stato rimosso il supporto per .3 e .4. CUDA11 CUDA11
Data di rilascio: 2023-08-04
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230804
Aggiornato
Plugin OFI NCCL aggiornato AWS alla versione 1.7.1
Made CUDA11 .8 come predefinito come PyTorch 2.0 supporta 11.8 e per l'istanza P5 EC2 , si consiglia di utilizzare >= .8 CUDA11
LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Per qualsiasi versione di cuda diversa, definisci LD_LIBRARY_PATH di conseguenza.
Directory CUDA 12.0, 12.1 aggiornate con NCCL 2.18.3
Fixed
Risolto il problema di caricamento dei pacchetti di Nvidia Fabric Manager (FM) menzionato nella precedente data di rilascio 2023-07-19.
Data di rilascio: 2023-07-19
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230719
Aggiornato
EFA aggiornato da 1.22.1 a 1.24.1
Driver Nvidia aggiornato da 525.85.12 a 535.54.03
Aggiunto
Sono state aggiunte modifiche allo stato c per disabilitare lo stato di inattività del processore impostando lo stato c massimo su C1. Questa modifica viene effettuata impostando `intel_idle.max_cstate=1 processor.max_cstate=1` negli argomenti di avvio di linux nel file/etc/default/grub
AWS EC2 Supporto per istanze P5:
Aggiunto il supporto dell' EC2 istanza P5 per i flussi di lavoro che utilizzano un singolo nodo/istanza. Il supporto multinodo (ad esempio per la formazione multinodo) tramite EFA (Elastic Fabric Adapter) e il plug-in AWS OFI NCCL verrà aggiunto in una prossima versione.
Utilizza CUDA>=11.8 per prestazioni ottimali.
Problema noto: il caricamento del pacchetto Nvidia Fabric Manager (FM) richiede tempo per essere caricato su P5, i clienti devono attendere 2-3 minuti fino al caricamento di FM dopo l'avvio dell'istanza P5. Per verificare se FM è avviato, esegui il comando sudo systemctl is-active nvidia-fabricmanager, dovrebbe tornare attivo prima di iniziare qualsiasi flusso di lavoro. Questo sarà migliorato nella prossima versione.
Data di rilascio: 2019-05-19
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230519
Aggiornato
EFA aggiornato alla versione 1.22.1 più recente
Versione NCCL aggiornata per CUDA da 12.1 a 2.17.1
Aggiunto
CUDA12Aggiunto .1 a /12.1 usr/local/cuda
Aggiunto il supporto per NVIDIA Data Center GPU Monitor (DCGM
) tramite il pacchetto datacenter-gpu-manager È possibile verificare lo stato di questo servizio tramite la seguente query: sudo systemctl status nvidia-dcgm
Gli archivi di NVMe istanze effimere vengono ora montati automaticamente sulle istanze supportate ed è possibile accedere allo storage nella cartella//. EC2 opt/dlami/nvme È possibile controllare o modificare questo servizio nei seguenti modi:
Controlla lo stato del NVMe servizio: sudo systemctl status dlami-nvme
Per accedere o modificare il servizio:/_ephemeral_drives.sh opt/aws/dlami/bin/nvme
NVMe volumes ha fornito le soluzioni di storage più veloci ed efficienti per flussi di lavoro ad alto throughput che richiedono prestazioni IOPS. Gli archivi di NVMe istanze temporanee sono inclusi nel costo delle istanze, quindi questo servizio non comporta costi aggiuntivi.
NVMe gli instance store verranno montati solo sulle EC2 istanze che li supportano. Per informazioni sulle EC2 istanze con istanze store NVMe supportati, consulta Available instance store volumes e verifica che sia NVMe supportato.
NOTA: gli NVMe instance store sono montati sull'istanza e non sono collegati alla rete come EBS. I dati su questi NVMe volumi potrebbero andare persi al riavvio o all'arresto dell'istanza.
Data di rilascio: 2023-04-17
Nome AMI: API GPU Deep Learning Base (Ubuntu 20.04) 20230414
Aggiornato
Nome DLAMI aggiornato da AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} a Deep Learning Base GPU AMI (Ubuntu 20.04) $ {YYYYY-MM-DD}
Tieni presente che supporteremo i DLAMI più recenti con il vecchio nome AMI per un mese a partire da questa versione per qualsiasi supporto necessario. I clienti possono aggiornare i pacchetti del sistema operativo apt-get update && apt-get upgrade per utilizzare le patch di sicurezza.
Percorso del plugin AWS OFI NCCL aggiornato da/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws
NCCL aggiornato a un ramo GIT personalizzato della v2.16.2, scritto in collaborazione con un team
NCCL per tutte le versioni CUDA. AWS AWS Funziona meglio sull'infrastruttura.
Aggiunto
Aggiunto CUDA12 0.0 a usr/local/cuda /12.0
Aggiunto AWS FSx
Aggiunto il supporto per la versione Python 3.9 in/3.9 usr/bin/python
Nota che questa modifica non sostituisce il sistema predefinito Python, python3 punterà comunque al sistema Python3.8.
È possibile accedere a Python3.9 utilizzando i seguenti comandi:
/usr/bin/python3.9 python3.9
Rimosso
Data di rilascio: 2022-05-25
Nome AMI: GPU AMI AWS Deep Learning Base CUDA 11 (Ubuntu 20.04) 20220523
Aggiornato
Questa versione aggiunge il supporto per la nuova istanza p4de.24xlarge. EC2
Aggiornato alla aws-efa-installer versione 1.15.2
Aggiornato aws-ofi-nccl alla versione 1.3.0-aws che include la topologia per p4de.24xlarge.
Data di rilascio: 2022-03-25
Nome AMI: GPU AMI AWS Deep Learning Base CUDA 11 (Ubuntu 20.04) 20220325
Aggiornato
Versione EFA aggiornata da 1.15.0 a 1.15.1
Data di rilascio: 2022-03-17
Nome AMI: GPU AMI AWS Deep Learning Base CUDA 11 (Ubuntu 20.04) 20220323
Aggiunto
Primo rilascio