Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS AMI di base di apprendimento approfondito (Amazon Linux 2)
Per informazioni su come iniziare, consultaGuida introduttiva a DLAMI.
Formato del nome AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) Versione $ {XX.X}
Versione AMI del driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) $ {XX.X}
EC2 Istanze supportate
Consulta la sezione Modifiche importanti a DLAMI.
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn
L'AMI include quanto segue:
AWS Servizio supportato: Amazon EC2
Sistema operativo: Amazon Linux 2
Architettura di calcolo: x86
L'ultima versione disponibile è installata per i seguenti pacchetti:
Kernel Linux: 5.10
Docker
AWS CLI v2 a/usr/local/bin/aws2 e AWS CLI v1 a/usr/bin/aws
Toolkit per contenitori Nvidia:
Comando di versione: -V nvidia-container-cli
Nvidia-docker2:
Comando di versione: versione nvidia-docker
Python:/3.7 usr/bin/python
Driver NVIDIA:
Driver Nvidia per sistema operativo: 550.163.01
Driver Nvidia proprietario: 550.163.01
Pila NVIDIA CUDA 12.1-12.4:
Directory di installazione CUDA, NCCL e CUDDN:/-xx.x/ usr/local/cuda
CUDA predefinito: 12.1
PATH/usr/local/cudapunta a CUDA 12.1
Aggiornato di seguito le variabili di ambiente:
LD_LIBRARY_PATH da avere/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PERCORSO da avere//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Versione NCCL compilata: 2.22.3
Luogo dei test NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Per eseguire i test NCCL, è necessario che LD_LIBRARY_PATH abbia superato gli aggiornamenti seguenti.
I comuni sono già stati aggiunti a LD_LIBRARY_PATH: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Per qualsiasi versione CUDA diversa, aggiorna LD_LIBRARY_PATH di conseguenza.
Programma di installazione EFA: 1.38.0
GDRCopyNvidia: 2.4
AWS OFI NCCL: 1.13.2
AWS OFI NCCL ora supporta più versioni NCCL con un'unica build
Percorso di installazione:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 viene aggiunto a LD_LIBRARY_PATH.
Tipo di volume EBS: gp3
Interroga l'AMI-ID con il parametro SSM (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output textDriver Nvidia proprietario:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
Interroga l'AMI-ID con AWSCLI (la regione di esempio è us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textDriver Nvidia proprietario:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Note
NVIDIA Container Toolkit 1.17.4
Nella versione 1.17.4 di Container Toolkit, il montaggio delle librerie compatte CUDA è ora disabilitato. Per garantire la compatibilità con più versioni CUDA sui flussi di lavoro dei container, assicurati di aggiornare LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA, come mostrato nel tutorial If you use a CUDA compatibility layer.
Aggiornamenti EFA dalla 1.37 alla 1.38 (versione il 2025-02-04)
EFA ora include il plugin OFI NCCL, che ora può essere trovato in/ AWS -ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se aggiorni la variabile LD_LIBRARY_PATH, assicurati di modificare correttamente la posizione OFI NCCL.
Politica di supporto
Questi AMIs componenti di questa AMI, come le versioni CUDA, possono essere rimossi e modificati in base alla politica di supporto del framework o per ottimizzare le prestazioni dei contenitori di deep learning
EC2 istanze con più schede di rete
Molti tipi di istanze che supportano EFA hanno anche più schede di rete.
DeviceIndex è univoca per ogni scheda di rete e deve essere un numero intero non negativo inferiore al limite di per. ENIs NetworkCard In P5, il numero di ENIs per NetworkCard è 2, il che significa che gli unici valori validi per DeviceIndex sono 0 o 1.
Per l'interfaccia di rete principale (indice della scheda di rete 0, indice del dispositivo 0), crea un'interfaccia EFA (EFA con ENA). Non è possibile utilizzare un'interfaccia di rete solo EFA come interfaccia di rete principale.
Per ogni interfaccia di rete aggiuntiva, utilizzate l'indice della scheda di rete non utilizzata successiva, l'indice 1 del dispositivo, e un'interfaccia di rete EFA (EFA con ENA) o solo EFA, a seconda del caso d'uso, ad esempio i requisiti di larghezza di banda ENA o lo spazio degli indirizzi IP. Per esempi di casi d'uso, consulta la configurazione EFA per le istanze P5.
Istanze P5/P5e
Le istanze P5 e P5e contengono 32 schede di interfaccia di rete e possono essere avviate utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Istanze P5en
P5en contiene 16 schede di interfaccia di rete e può essere avviata utilizzando il seguente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versione del kernel viene bloccata utilizzando il comando:
sudo yum versionlock kernel*
Consigliamo agli utenti di evitare di aggiornare la versione del kernel (a meno che non sia necessaria una patch di sicurezza) per garantire la compatibilità con i driver installati e le versioni dei pacchetti. Se gli utenti desiderano comunque effettuare l'aggiornamento, possono eseguire i seguenti comandi per sbloccare le versioni del kernel:
sudo yum versionlock delete kernel* sudo yum update -y
Per ogni nuova versione di DLAMI, viene utilizzato il kernel compatibile più recente disponibile.
Data di rilascio: 2025-04-22
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 69.3
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 67.0
Aggiornato
Data di rilascio: 2025-02-17
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.5
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.3
Aggiornato
Aggiornamento di NVIDIA Container Toolkit dalla versione 1.17.3 alla versione 1.17.4. Per ulteriori informazioni, consulta la pagina delle note di rilascio qui:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
Rimosso
Data di rilascio: 2025-02-04
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.4
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.1
Aggiornato
-
Versione EFA aggiornata da 1.37.0 a 1.38.0
Data di rilascio: 2025-01-17
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.3
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 66.0
Aggiornato
Data di rilascio: 2025-01-06
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.2
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.9
Aggiornato
EFA aggiornato dalla versione 1.34.0 alla 1.37.0
OFI NCCL aggiornato AWS dalla versione 1.11.0 alla 1.13.0
Data di rilascio: 2024-12-09
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 68.1
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.8
Aggiornato
Nvidia Container Toolkit aggiornato dalla versione 1.17.0 alla 1.17.3
Data di rilascio: 2024-11-09
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.9
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.6
Aggiornato
Data di rilascio: 2024-10-22
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.7
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.4
Aggiornato
Data di rilascio: 2024-10-03
Nomi AMI
Versione AMI del driver Nvidia di base per Deep Learning (Amazon Linux 2)
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 65.2
Aggiornato
Data di rilascio: 2024-08-27
Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 67.0
Aggiornato
-
Driver Nvidia e Fabric Manager aggiornati dalla versione 535.183.01 a 550.90.07
Rimosso il requisito della shell multiutente da Fabric Manager in base ai consigli di Nvidia
Per ulteriori informazioni, consulta i problemi noti relativi al driver Tesla 550.90.07 qui
Versione EFA aggiornata da 1.32.0 a 1.34.0
-
NCCL aggiornato all'ultima versione 2.22.3 per tutte le versioni CUDA
CUDA 12.1, 12.2 aggiornato da 2.18.5+ 2. CUDA12
CUDA 12.3 aggiornato CUDA12 da 2.21.5+ .4
Aggiunto
Aggiunta la versione 12.4 del toolkit CUDA nella directory/-12.4 usr/local/cuda
Aggiunto il supporto per le istanze P5e. EC2
Rimosso
Rimosso lo stack CUDA Toolkit versione 11.8 presente nella directory/-11.8 usr/local/cuda
Data di rilascio: 2024-08-19
Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 66.3
Aggiunto
È stato aggiunto il supporto per le istanze EC2 G6e.
Data di rilascio: 2024-06-06
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 65.4
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.9
Aggiornato
Versione del driver Nvidia aggiornata a 535.183.01 da 535.161.08
Data di rilascio: 2024-05-02
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 64.7
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.2
Aggiornato
Versione EFA aggiornata dalla versione 1.30 alla versione 1.32
Plugin AWS OFI NCCL aggiornato dalla versione 1.7.4 alla versione 1.9.1
Nvidia Container Toolkit aggiornato dalla versione 1.13.5 alla versione 1.15.0
Aggiunto
-
Aggiunto lo stack CUDA12 .3 con CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7
La versione 1.15.0 NON include i nvidia-container-runtime pacchetti e nvidia-docker2. Si consiglia di utilizzare i nvidia-container-toolkit pacchetti direttamente seguendo i documenti del toolkit contenitore Nvidia.
Rimosso
Sono stati rimossi gli CUDA11 stack .7, CUDA12 .0 presenti in /-12.0 usr/local/cuda-11.7 and /usr/local/cuda
Il pacchetto nvidia-docker2 e il relativo comando nvidia-docker sono stati rimossi come parte dell'aggiornamento del toolkit container Nvidia dalla 1.13.5 alla 1.15.0 che NON include i pacchetti e nvidia-docker2. nvidia-container-runtime
Data di rilascio: 2024-04-04
Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 64.0
Aggiunto
Per il driver OSS Nvidia DLAMIs, è stato aggiunto il supporto per le istanze G6 e Gr6 EC2
Data di rilascio: 2024-03-29
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 62.3
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 63.2
Aggiornato
Driver Nvidia aggiornato da 535.104.12 a 535.161.08 sia nel driver Nvidia proprietario che in quello OSS. DLAMIs
-
Le nuove istanze supportate per ogni DLAMI sono le seguenti:
Deep Learning con driver Nvidia proprietario supporta G3 (G3.16x non supportato), P3, P3dn
Deep Learning con OSS Il driver Nvidia supporta G4dn, G5, P4d, P4de, P5.
Rimosso
Rimosso il EC2 supporto per le istanze G4dn, G5, G3.16x dal driver proprietario Nvidia DLAMI.
Data di rilascio: 2024-03-20
Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 63.1
Aggiunto
Aggiunto awscliv2 nell'AMI come usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws /on OSS Nvidia Driver AMI
Data di rilascio: 2024-03-13
Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 63.0
Aggiornato
-
Driver OSS Nvidia DLAMI aggiornato con supporto G4dn e G5, in base al quale il supporto attuale è il seguente:
L'AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) supporta P3, P3dn, G3, G4dn, G5.
L'AMI driver Nvidia OSS di Deep Learning Base (Amazon Linux 2) supporta G4dn, G5, P4, P5.
Si consiglia di utilizzare i driver DLAMIs OSS Nvidia per G4dn, G5, P4, P5.
Data di rilascio: 2024-02-13
Nomi AMI
Base di deep learning OSS Nvidia Driver AMI (Amazon Linux 2) versione 62.1
AMI driver Nvidia proprietaria di Deep Learning Base (Amazon Linux 2) versione 62.1
Aggiornato
Driver OSS Nvidia aggiornato da 535.129.03 a 535.154.05
EFA aggiornato da 1.29.0 a 1.30.0
AWS OFI NCCL aggiornato da 1.7.3-aws a 1.7.4-aws
Data di rilascio: 2024-02-01
Nome AMI: Nvidia Driver AMI proprietario di Deep Learning Base (Amazon Linux 2) versione 62.0
Sicurezza
Versione 61.4
Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 61.4
Aggiornato
Driver OSS Nvidia aggiornato da 535.104.12 a 535.129.03
Versione 61.0
Nome AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versione 61.4
Aggiornato
EFA aggiornato dalla versione 1.26.1 alla 1.29.0
GDRCopy aggiornato dalla versione 2.3 alla 2.4
Aggiunto
-
AWS Deep Learning AMI (DLAMI) è suddiviso in due gruppi distinti:
DLAMI che utilizza il driver proprietario Nvidia (per supportare P3, P3dn, G3, G5, G4dn).
DLAMI che utilizza il driver Nvidia OSS per abilitare EFA (per supportare P4, P5).
Per ulteriori informazioni sulla divisione DLAMI, fare riferimento all'annuncio pubblico.
Per AWS CLI le interrogazioni, vedere il punto elenco Query AMI-ID AWSCLI with (ad esempio la regione è us-east-1)
Versione 60.6
Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.6
Aggiornato
AWS Plugin OFI NCCL aggiornato dalla versione 1.7.2 alla versione 1.7.3
Directory CUDA 12.0-12.1 aggiornate con la versione NCCL 2.18.5
-
CUDA12.1 aggiornata come versione CUDA predefinita
LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Per i clienti che desiderano passare a una versione CUDA diversa, definisci le variabili LD_LIBRARY_PATH e PATH di conseguenza.
Aggiunto
Il Kernel Live Patching è ora abilitato. Il live patching consente ai clienti di applicare vulnerabilità di sicurezza e patch di bug critici a un kernel Linux in esecuzione, senza riavvii o interruzioni delle applicazioni in esecuzione. Tieni presente che il supporto per il live patching per il kernel 5.10.192 terminerà il 30/11/23.
Versione 60.5
Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.5
Aggiornato
Driver NVIDIA aggiornato da 535.54.03 a 535.104.12
Questo driver più recente corregge le modifiche principali dell'ABI NVML riscontrate nel driver 535.54.03, nonché la regressione del driver trovata nel driver 535.86.10 che interessava i toolkit CUDA sulle istanze P5. Consulta le seguenti note di rilascio di NVIDIA per i dettagli sulle correzioni:
Directory CUDA 12.2 aggiornate con NCCL 2.18.5
EFA aggiornato dalla versione 1.24.1 alla versione più recente 1.26.1
Aggiunto
Aggiunto .2 a/-12.2 CUDA12 usr/local/cuda
Rimosso
Rimosso il supporto per CUDA 11.5 e CUDA 11.6
Versione 60.2
Nome AMI: Deep Learning Base AMI (Amazon Linux 2) versione 60.2
Aggiornato
aws-ofi-ncclPlugin aggiornato dalla v1.7.1 alla v1.7.2
Versione 60.0
Data di rilascio: 2023-08-11
Aggiunto
Questa AMI ora fornisce supporto per la funzionalità di training multinodo su P5 e tutte le istanze supportate in precedenza EC2
Per le EC2 istanze P5, si consiglia di utilizzare NCCL 2.18 ed è stato aggiunto a .0 e .1. CUDA12 CUDA12
Rimosso
È stato rimosso il supporto per .5. CUDA11
Versione 5.9.2
Data di rilascio: 2023-08-08
Rimosso
CUDA-11.3 e CUDA-11.4 rimossi
Versione 59.1
Data di rilascio: 2023-08-03
Aggiornato
Plugin AWS OFI NCCL aggiornato alla versione 1.7.1
-
Made CUDA11 .8 come predefinito come PyTorch 2.0 supporta 11.8 e per l'istanza P5 EC2 , si consiglia di utilizzare >= .8 CUDA11
LD_LIBRARY_PATH aggiornato per avere//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Per qualsiasi versione di cuda diversa, definisci LD_LIBRARY_PATH di conseguenza.
Fixed
Risolto il problema di caricamento dei pacchetti di Nvidia Fabric Manager (FM) menzionato nella precedente data di rilascio 2023-07-19.
Versione 58.9
Data di rilascio: 2023-07-19
Aggiornato
Driver Nvidia aggiornato da 525.85.12 a 535.54.03
Programma di installazione EFA aggiornato da 1.22.1 a 1.24.1
Aggiunto
Sono state aggiunte modifiche allo stato c per disabilitare lo stato di inattività del processore impostando lo stato c massimo su C1. Questa modifica viene effettuata impostando `intel_idle.max_cstate=1 processor.max_cstate=1` negli argomenti di avvio di linux nel file/etc/default/grub
-
AWS EC2 Supporto per istanze P5:
Aggiunto il supporto dell' EC2 istanza P5 per i flussi di lavoro che utilizzano un singolo nodo/istanza. Il supporto multinodo (ad esempio per la formazione multinodo) tramite EFA (Elastic Fabric Adapter) e il plug-in AWS OFI NCCL verrà aggiunto in una prossima versione.
Utilizza CUDA>=11.8 per prestazioni ottimali.
Problema noto: il caricamento del pacchetto Nvidia Fabric Manager (FM) richiede tempo per essere caricato su P5, i clienti devono attendere 2-3 minuti prima che FM si carichi dopo aver avviato l'istanza P5. Per verificare se FM è avviato, esegui il comando sudo systemctl is-active nvidia-fabricmanager, dovrebbe tornare attivo prima di iniziare qualsiasi flusso di lavoro. Questo problema verrà risolto nella prossima versione.
Versione 58.0
Data di rilascio: 2023-05-19
Rimosso
È stato rimosso lo stack CUDA11 .0-11.2 secondo la politica di supporto menzionata nella sezione superiore di questo documento.
Versione 5.7.3
Data di rilascio: 2023-04-06
Aggiunto
GDRCopy Aggiunto Nvidia 2.3
Versione 56.8
Data di rilascio: -09
Aggiornato
Driver NVIDIA aggiornato da 515.65.01 a 525.85.12
Aggiunto
Aggiunto usr/local/cuda cuda-11.8 a/-11.8/
Versione 56.0
Data di rilascio: 2022-12-06
Aggiornato
Versione EFA aggiornata da 1.17.2 a 1.19.0
Versione 55.0
Data di rilascio: 2022-11-04
Aggiornato
Driver NVIDIA aggiornato da 510.47.03 a 515.65.01
Aggiunto
Aggiunto usr/local/cuda cuda-11.7 in/-11.7/
Versione 54.0
Data di rilascio: 2022-09-15
Aggiornato
Versione EFA aggiornata da 1.16.0 a 1.17.2
Versione 53.3
Data di rilascio: 2022-05-25
Aggiornato
Aggiornato alla versione 1.15.2 aws-efa-installer
Aggiornato aws-ofi-nccl alla versione 1.3.0-aws che include la topologia per p4de.24xlarge.
Aggiunto
Questa versione aggiunge il supporto per EC2 le istanze p4de.24xlarge.
Versione 53.0
Data di rilascio: 2022-04-28
Aggiunto
CloudWatch Agente Amazon aggiunto
-
Aggiunti tre servizi systemd che utilizzano file json predefiniti disponibili su path/opt/aws/amazon-cloudwatch-agent/etc/per configurare i parametri della GPU utilizzando l'utente linux cwagent
-
dlami-cloudwatch-agent@minimal
Comandi per abilitare le metriche della GPU:
sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
Crea le seguenti metriche:
utilization_gpu
utilization_memory
-
dlami-cloudwatch-agent@partial
Comandi per abilitare le metriche della GPU:
sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
Crea le seguenti metriche:
utilization_gpu
,,,,utilization_memory
memory_total
memory_used
memory_free
-
dlami-cloudwatch-agent@all
-
Comandi per abilitare le metriche della GPU:
sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
Crea tutte le metriche GPU disponibili
-
-
Versione 52.0
Data di rilascio: 2022-03-08
Aggiornato
Versione del Kernel aggiornata alla 5.10
Versione 51.0
Data di rilascio: 2022-03-04
Aggiornato
Driver Nvidia aggiornato alla versione 510.47.03
Versione 50.0
Data di rilascio: 2022-02-17
Aggiornato
Bloccati aws-neuron-dkms e tensorflow-model-server-neuron man mano che vengono aggiornati alle versioni più recenti che non sono supportate dai pacchetti Neuron presenti nell'AMI
Comandi se il cliente desidera sbloccare il pacchetto per aggiornarlo alla versione più recente: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron
Versione 49.0
Data di rilascio: 2022-01-13
Aggiunto
Aggiunto CUDA11 2.2 con i seguenti componenti:
cuDNN v8.1.1.33
NCCL 2.8.4
CUDA 11.2.2
Aggiornato
Symlink pip aggiornato a pip3
Raggiunta obsolescenza
Supporto obsoleto per il tipo di istanza P2
Python2.7 obsoleto e pacchetti python2.7 correlati rimossi come «python-dev», «python-pip» e «python-tk»
Versione 48.0
Data di rilascio: 2021-12-27
Aggiornato
Org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar è stato rimosso dalle versioni di cuda poiché non viene utilizzato e non presenta rischi per gli utenti che dispongono dei file Log4j. Per ulteriori informazioni, vedere _id/5294. https://nvidia.custhelp.com/app/ answers/detail/a
Versione 47.0
Data di rilascio: 2021-11-24
Aggiornato
EFA aggiornato alla versione 1.14.1
Versione 46.0
Data di rilascio: 2021-11-12
Aggiornato
Pacchetti Neuron aggiornati da =1.5. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, da aws-neuron-tools =1.6.* a =2.2. aws-neuron-dkms *, =1,6. aws-neuron-runtime-base *, aws-neuron-tools =2,0*.
Pacchetto Neuron rimosso aws-neuron-runtime =1.5.* poiché Neuron non ha più un runtime in esecuzione come demone e il runtime è ora integrato con il framework come libreria.
Versione 4.5.0
Data di rilascio: 2021-10-21
Aggiunto
I report delle scansioni di sicurezza in formato JSON sono disponibili all'indirizzo//. opt/aws/dlami/info
Versione 44.0
Data di rilascio: 2021-10-08
Changed
Per ogni avvio di istanza con DLAMI, verrà aggiunto il tag "aws-dlami-autogenerated-tag-do-not-delete" che consentirà AWS di raccogliere informazioni sul tipo di istanza, l'ID dell'istanza, il tipo DLAMI e il sistema operativo. Nessuna informazione sui comandi utilizzati all'interno del DLAMI viene raccolta o conservata. Non vengono raccolte o conservate altre informazioni sul DLAMI. Per disattivare il tracciamento dell'utilizzo per il tuo DLAMI, aggiungi un tag all' EC2 istanza Amazon durante l'avvio. Il tag deve utilizzare la chiave OPT_OUT_TRACKING con il valore associato impostato su true. Per ulteriori informazioni, consulta Tagga le tue EC2 risorse Amazon.
Sicurezza
Versione docker aggiornata a docker-20.10.7-3
Versione 43.0
Data di rilascio: 2021-08-24
Changed
«notebook» aggiornato alla versione «6.4.1".
Versione 4.2.0
Data di rilascio: 2021-07-23
Changed
Driver Nvidia e versione Fabric manager aggiornati a 450.142.00.
Versione 41.0
Data di rilascio: 2021-06-24
Changed
Pacchetti Neuron aggiornati secondo la versione di Neuron v1.14.0
Versione 40.0
Data di rilascio: 2021-06-10
Changed
Versione awscli aggiornata alla 1.19.89
Versione 39.0
Data di rilascio: 2021-05-27
Sicurezza
Sono stati rimossi i componenti CUDA-10.0 vulnerabili (Visual Profiler, Nsight EE e JRE) dall'installazione CUDA-10.0 (/-10.0). usr/local/cuda
Versione 38.0
Data di rilascio: 2021-05-25
Changed
runc aggiornato alla versione più recente
Versione 37.0
Data di rilascio: 2021-04-23
Changed
Driver Nvidia Tesla e versione Fabric Manager aggiornati a 450.119.03.
Versione 36.1
Data di rilascio: 2021-04-21
Fixed
È stato risolto un problema che rallentava la velocità di avvio dell'istanza.
Versione 36.0
Data di rilascio: 2021-03-24
Aggiunto
Aggiunto tensorflow-model-server-neuron per supportare il servizio di modelli neuronali.
Changed
Jupyterlab è stato aggiornato alla versione 3.0.8 per python3.
Fixed
La vecchia installazione di OpenMPI inusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/è disponibile.
Rimuovi la definizione duplicata e inesistente degli ambienti shell che ha inquinato le variabili di ambiente della shell come PATH e LD_LIBRARY_PATH. Come risultato, sono stati aggiunti ~/.dlami e/.sh. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami
Sicurezza
Versione 35.0
Data di rilascio: 2021-03-08
Aggiunto
Aggiunta l'installazione di TensorRT CUDA
11.0
Versione 34.3
Data di rilascio: 2021-02-25
Fixed
È stato corretto un errore di battitura nel MOTD (messaggio del giorno) che mostrava erroneamente la versione 34.1.
Versione 34.2
Data di rilascio: 2021-02-24
Sicurezza
Python2 e python3 patchati per CVE-2021-3177
Problema noto
C'è un errore di battitura nel MOTD (messaggio del giorno) che mostrava erroneamente la versione 34.1, rilasceremo la versione 34.3 per risolvere questo problema.
Versione 34.0
Data di rilascio: 2021-02-09
Changed
Pip aggiunto alla versione 20.3.4 per python2, questa è l'ultima versione pip che supporta python2 e python3.5.
Versione 33.0
Data di rilascio: 2021-01-19
Changed
Versione cuDNN aggiornata alla CUDA11 v8.0.5.39 in .0 e .1. CUDA11
Versione 32.0
Data di rilascio: 2020-12-01
Aggiunto
Aggiunto CUDA11 .1 con NCCL 2.7.8, cuDNN 8.0.4.30 per AMI Deep Learning (Amazon Linux 2), AMI Deep Learning (Ubuntu 16.04), AMI Deep Learning (Ubuntu 18.04), AMI Deep Learning Base (Ubuntu 16.04), AMI Deep Learning Base (Ubuntu 18.04), AMI Deep Learning Base (Amazon Linux 2).
Versione 3.1.0
Data di rilascio: 2020-11-02
Changed
Programma di installazione EFA aggiornato alla versione 1.10.0.
Versione cuDNN aggiornata alla v8.0.4.30 per CUDA 11.0.
AWS Neuron aggiornato alla versione 1.1
Versione 30.0
Data di rilascio: 2020-10-08
Changed
Versioni aggiornate di NVIDIA Driver e Fabric Manager a 450.80.02
Aggiornato NCCL alla versione 2.7.8 in versione 2.0 CUDA11
Fixed
Risolto un problema in cui yum gestiva il pacchetto python sovrascriveva le installazioni gestite da pip. Gli eseguibili pip, pip3 e pip3.7 sono stati spostati da /parte di questa correzione. usr/binto /usr/local/binas
Versione 29.0
Data di rilascio: 2020-09-11
Changed
Driver NVIDIA aggiornato dalla versione 450.51.05 alla 450.51.06
Aggiunta la versione 450.51.06 di NVIDIA Fabric Manager
EFA aggiornato alla versione 1.9.4
Versione 28.0
Data di rilascio: 2020-08-19
Changed
Aggiunto lo stack CUDA 11.0 con NCCL 2.7.6 e cuDNN 8.0.2.39
Versione 27.0
Data di rilascio: 2020-08-07
Changed
EFA aggiornato dalla versione 1.7.1 alla 1.9.3 su/opt/amazon/efa
Open MPI aggiornato dalla versione 4.0.3 alla 4.0.4 in '/ 'è ancora alla versione 4.0.3 usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun
Driver NVIDIA aggiornato da 440.33.01 a 450.51.05
Versione NCCL aggiornata da 2.6.4 a 2.7.6 in 0.2 CUDA1
Versione 26.0
Data di rilascio: 2020-08-03
Changed
AWS OFI NCCL aggiornato alla versione più recente, vedi qui per maggiori dettagli.
Cuda 8.0/9.0/9.2 sono stati rimossi dall'AMI
Fixed
È stato corretto un errore che impediva l'apertura del file oggetto condiviso: libopencv_dnn.so.4.2.
Versione 25.0
Data di rilascio: 2020-07-19
Changed
Versione EFA aggiornata alla 1.7.1 per supportare NCCL 2.6.4
Versione NCCL aggiornata alla 2.6.4 per CUDA 10.2
versione awscli aggiornata da 1.16.76 a 1.18.80
versione boto3 aggiornata da 1.9.72 a 1.14.3
Versione 24.1
Data di rilascio: 2020-06-14
Changed
Versione Docker aggiornata alla 19.03.6
Versione 24.0
Data di rilascio: 2020-05-20
Changed
Versione Docker aggiornata alla 19.03.6
Versione 23.0
Data di rilascio: 2020-04-29
Changed
Versioni aggiornate del pacchetto python
Versione 22.0
Data di rilascio: 2020-03-04
Changed
Aggiunto lo stack CUDA 10.2
CUDA 10.0 e 10.1 aggiornati per la versione cuDNN e NCCL