Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Deep-Learning-Base-GPU-AMI (Ubuntu 20.04)
Hinweis außerhalb des Support
Ubuntu Linux 20.04 LTS erreicht am 31. Mai 2025 das Ende seines fünfjährigen LTS-Fensters und wird vom Hersteller nicht mehr unterstützt. Folglich wird das AWS Deep Learning Base GPU AMI (Ubuntu 20.04) nach dem 31. Mai 2025 keine Updates mehr haben. Frühere Versionen werden weiterhin verfügbar sein. Bitte beachten Sie, dass jedes öffentlich veröffentlichte AMI 2 Jahre EC2 nach seinem Erstellungsdatum als veraltet gilt. Weitere Informationen finden Sie unter Amazon EC2 AMI verwerfen.
Drei Monate lang, bis zum 31. August 2025, wird Support nur für Funktionsprobleme (keine Sicherheitspatches) bereitgestellt.
Benutzer von Ubuntu 20.04 DLAMI sollten zu AWS Deep Learning Base GPU AMI (Ubuntu 22.04) oder AWS Deep Learning Base GPU
AMI (Ubuntu 24.04) wechseln. Alternativ kann AWS Deep Learning Base AMI (Amazon Linux 2023) verwendet werden.
Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.
AMI-Namensformat
Deep Learning Base OSS Nvidia-Treiber-GPU-AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}
EC2 Unterstützte Instanzen
Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn
Das AMI umfasst Folgendes:
Unterstützter AWS Service: Amazon EC2
Betriebssystem: Ubuntu 20.04
Rechenarchitektur: x86
Die neueste verfügbare Version ist für die folgenden Pakete installiert:
Linux Kernel 5.15
FSx Glanz
Docker
AWS CLI v2 bei/usr/local/bin/aws2 und AWS CLI v1 bei/usr/bin/aws
NVIDIA DCGM
Nvidia-Container-Toolkit:
Versionsbefehl: -V nvidia-container-cli
NVIDIA-Docker2:
Versionsbefehl: nvidia-docker version
NVIDIA-Treiber:
OS Nvidia-Treiber: 550.163.01
Proprietärer Nvidia-Treiber: 550.163.01
NVIDIA CUDA 11.7, 12.1-12.4-Stapel:
Installationsverzeichnisse für CUDA, NCCL und cuDDN:/-xx.x/ usr/local/cuda
Beispiel:/-12.1/ usr/local/cuda
Kompilierte NCCL-Version: 2.22.3+ .4 CUDA12
Standard-CUDA: 12.1
PATH//usr/local/cudazeigt auf CUDA 12.1
Die folgenden Umgebungsvariablen wurden aktualisiert:
LD_LIBRARY_PATH soll/haben usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH soll//haben usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
Standort der NCCL-Tests:
all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Um NCCL-Tests ausführen zu können, muss LD_LIBRARY_PATH mit den folgenden Aktualisierungen bestanden werden.
Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
EFA-Installationsprogramm: 1.39.0
Nvidia: 2,4 GDRCopy
AWS OFI NCCL-Plugin: wird als Teil des EFA Installer-AWS installiert
AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build
Der Installationspfad:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libwurde zu LD_LIBRARY_PATH hinzugefügt.
Testet den Pfad für Ring, message_transfer:/opt/aws-ofi-nccl/tests
EBS-Volumetyp: gp3
Python:/usr/bin/python3.9
NVMe Speicherort des Instanzspeichers (auf unterstützten EC2 Instanzen):/opt/dlami/nvme
AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textEigener Nvidia-Treiber:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textEigener Nvidia-Treiber:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Hinweise
NVIDIA-Container-Toolkit 1.17.4
In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.
EFA-Updates von 1.37 auf 1.38 (Veröffentlichung am 04.02.2025)
EFA bündelt jetzt das AWS OFI NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.
Unterstützungspolitik
Komponenten dieses AMI wie CUDA-Versionen können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container
EC2 Instanzen mit mehreren Netzwerkkarten
Viele Instance-Typen, die EFA unterstützen, verfügen auch über mehrere Netzwerkkarten.
DeviceIndex ist für jede Netzwerkkarte eindeutig und muss eine nicht negative Ganzzahl sein, die unter dem Grenzwert von ENIs per NetworkCard liegt. Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind.
Erstellen Sie für die primäre Netzwerkschnittstelle (Netzwerkkartenindex 0, Geräteindex 0) eine EFA-Schnittstelle (EFA mit ENA). Sie können eine Nur-EFA-Netzwerkschnittstelle nicht als primäre Netzwerkschnittstelle verwenden.
Verwenden Sie für jede weitere Netzwerkschnittstelle den nächsten ungenutzten Netzwerkkartenindex, Geräteindex 1, und je nach Anwendungsfall, wie z. B. ENA-Bandbreitenanforderungen oder IP-Adressraum, entweder eine EFA (EFA mit ENA) oder eine reine EFA-Netzwerkschnittstelle. Anwendungsfälle finden Sie beispielsweise unter EFA-Konfiguration für P5-Instances.
P5/P5e-Instanzen
P5- und P5e-Instances enthalten 32 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en-Instanzen
P5en enthalten 16 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Die Kernel-Version wird mit dem folgenden Befehl gepinnt:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsWir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsFür jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.
Veröffentlichungsdatum: 2025-04-24
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250424
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250424
Aktualisiert
Veröffentlichungsdatum: 2025-02-17
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250214
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250214
Aktualisiert
Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert
In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.
Entfernt
Veröffentlichungsdatum: 04.02.2025
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250204
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250204
Aktualisiert
Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert
EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.
Entfernt
Das Emacs-Paket wurde aus diesen entfernt. DLAMIs Kunden können Emacs von GNU Emacs aus installieren. https://www.gnu.org/software/emacs/download.html
Datum der Veröffentlichung: 2025-01-17
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250117
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250117
Aktualisiert
Veröffentlichungsdatum: 2024-12-09
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20241206
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20241206
Aktualisiert
Das Nvidia Container Toolkit wurde von Version 1.17.0 auf 1.17.3 aktualisiert
Veröffentlichungsdatum: 2024-11-22
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20241122
Hinzugefügt
Unterstützung für P5en-Instances hinzugefügt. EC2
Aktualisiert
Der EFA Installer wurde von Version 1.35.0 auf 1.37.0 aktualisiert
Aktualisieren Sie das AWS OFI NCCL Plugin von Version 1.12.1-aws auf 1.13.0-aws
Datum der Veröffentlichung: 2024-10-26
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20241025
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20241025
Aktualisiert
Veröffentlichungsdatum: 2024-10-03
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240927
Aktualisiert
Das Nvidia Container Toolkit wurde von Version 1.16.1 auf 1.16.2 aktualisiert
Veröffentlichungsdatum: 2024-08-27
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240827
Aktualisiert
Der Nvidia-Treiber und der Fabric Manager wurden von Version 535.183.01 auf 550.90.07 aktualisiert
Die EFA-Version wurde von 1.32.0 auf 1.34.0 aktualisiert
NCCL wurde für alle CUDA-Versionen auf die neueste Version 2.22.3 aktualisiert
CUDA 11.7 wurde von Version 2.16.2+ 1.7 aktualisiert CUDA11
CUDA 12.1, 12.2 wurde von 2.18.5+ 2 aktualisiert CUDA12
CUDA 12.3 wurde von Version 2.21.5+ aktualisiert. CUDA12
Hinzugefügt
CUDA-Toolkit-Version 12.4 wurde im Verzeichnis/-12.4 hinzugefügt usr/local/cuda
Unterstützung für P5e-Instance hinzugefügt. EC2
Entfernt
Der CUDA Toolkit-Stack der Version 11.8 wurde entfernt, der im Verzeichnis/-11.8 vorhanden ist usr/local/cuda
Veröffentlichungsdatum: 2024-08-19
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240816
Hinzugefügt
Veröffentlichungsdatum: 2024-06-06
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240606
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240606
Aktualisiert
Die Nvidia-Treiberversion wurde von 535.161.08 auf 535.183.01 aktualisiert
Datum der Veröffentlichung: 2024-05-15
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240515
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240515
Hinzugefügt
CUDA117.7-Stack im Verzeichnis/usr/local/cuda-11.7 mit .7, NCCL 2.16.2, cuDNN 8.7.0 hinzugefügt, da 1.13 CUDA11 .7 unterstützt. PyTorch CUDA11
Datum der Veröffentlichung: 2024-05-02
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240502
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240502
Aktualisiert
Die EFA-Version wurde von Version 1.30 auf Version 1.32 aktualisiert
Das AWS OFI NCCL-Plugin wurde von Version 1.7.4 auf Version 1.9.1 aktualisiert
Das Nvidia-Container-Toolkit wurde von Version 1.13.5 auf Version 1.15.0 aktualisiert
Version 1.15.0 enthält NICHT die Pakete und nvidia-docker2. nvidia-container-runtime Es wird empfohlen, nvidia-container-toolkit Pakete direkt zu verwenden, indem Sie den Dokumenten zum Nvidia-Container-Toolkit folgen.
Hinzugefügt
CUDA123.3-Stack mit CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7 hinzugefügt
Entfernt
Die Stapel CUDA11 .7, .0 in den Verzeichnissen/-12.0 wurden entfernt CUDA12 usr/local/cuda-11.7 and /usr/local/cuda
Das nvidia-docker2-Paket und sein Befehl nvidia-docker wurden als Teil des Nvidia-Container-Toolkit-Updates von 1.13.5 auf 1.15.0 entfernt, das NICHT die Pakete und nvidia-docker2 enthält.
nvidia-container-runtime
Veröffentlichungsdatum: 2024-04-04
AMI-Namen: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240404
Hinzugefügt
Für den OSS-Nvidia-Treiber wurde Unterstützung für G6 DLAMIs - und Gr6-Instances hinzugefügt. EC2 Weitere Informationen finden Sie unter Empfohlene GPU-Instanzen.
Veröffentlichungsdatum: 2024-03-29
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240326
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240326
Aktualisiert
Der Nvidia-Treiber wurde sowohl im proprietären als auch im OSS-Nvidia-Treiber von 535.104.12 auf 535.161.08 aktualisiert. DLAMIs
Die Unterstützung für G4dn- und EC2 G5-Instances wurde vom proprietären Nvidia-Treiber DLAMI entfernt.
Die neuen unterstützten Instanzen für jedes DLAMI lauten wie folgt:
Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, P4d, P4de, P5.
Datum der Veröffentlichung: 2024-03-20
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240318
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240318
Hinzugefügt
awscliv2Im AMI unter//usr/local/bin/awshinzugefügt, zusammen mitawscliv1als/usr/bin/awsauf Proprietary und OSS Nvidia Driver AMI
Datum der Veröffentlichung: 2024-03-14
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240314
Aktualisiert
Aktualisierter OSS Nvidia-Treiber DLAMI mit G4dn- und G5-Unterstützung, basierend darauf sieht die aktuelle Unterstützung wie folgt aus:
Das proprietäre Nvidia-Treiber-AMI von Deep Learning Base (Ubuntu 20.04) unterstützt P3, P3dn, G3, G5, G4dn.
Das Deep Learning Base OSS Nvidia-Treiber-AMI (Ubuntu 20.04) unterstützt G5, G4dn, P4, P5.
DLAMIs Es wird empfohlen, die OSS-Nvidia-Treiber für G5, G4dn, P4, P5 zu verwenden.
Veröffentlichungsdatum: 2024-02-12
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240208
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240208
Aktualisiert
AWS Das OFI NCCL-Plugin wurde von 1.7.3 auf 1.7.4 aktualisiert
Datum der Veröffentlichung: 2024-02-01
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240201
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240201
Sicherheit
Die Runc-Paketversion wurde aktualisiert, um den Patch für CVE-2024-21626
zu verwenden.
Veröffentlichungsdatum: 2023-12-04
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20231204
Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20231204
Hinzugefügt
AWS Deep Learning AMI (DLAMI) ist in zwei separate Gruppen aufgeteilt:
DLAMI, das den proprietären Treiber von Nvidia verwendet (zur Unterstützung von P3, P3dn, G3, G5, G4dn).
DLAMI, das den Nvidia OSS-Treiber verwendet, um EFA zu aktivieren (zur Unterstützung von P4, P5).
Weitere Informationen zur DLAMI-Aufteilung finden Sie unter Wichtige Änderungen an DLAMI.
AWS CLI Abfragen für oben stehen unter dem Aufzählungspunkt Abfrage AMI-ID mit AWSCLI (Beispiel Region ist us-east-1)
Aktualisiert
EFA wurde von 1.26.1 auf 1.29.0 aktualisiert
GDRCopy aktualisiert von 2.3 auf 2.4
Datum der Veröffentlichung: 18.10.2023
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20231018
Aktualisiert
AWS Das OFI NCCL Plugin wurde von Version 1.7.2 auf Version 1.7.3 aktualisiert
Die CUDA 12.0-12.1-Verzeichnisse wurden mit der NCCL-Version 2.18.5 aktualisiert, sodass sie mit CUDA 12.2 übereinstimmen
CUDA12.1 wurde als Standard-CUDA-Version aktualisiert
LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Für Kunden, die zu einer anderen CUDA-Version wechseln möchten, definieren Sie die Variablen LD_LIBRARY_PATH und PATH bitte entsprechend.
Veröffentlichungsdatum: 2023-10-02
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20231002
Aktualisiert
Der NVIDIA-Treiber wurde von 535.54.03 auf 535.104.12 aktualisiert
Dieser neueste Treiber behebt wichtige NVML-ABI-Änderungen in der Treiberversion 535.54.03 sowie die Treiberregression in Version 535.86.10, die CUDA-Toolkits auf P5-Instances betraf. Einzelheiten zu den Korrekturen finden Sie in den folgenden NVIDIA-Versionshinweisen:
Einzelheiten zu den Korrekturen finden Sie in den folgenden NVIDIA-Versionshinweisen:
CUDA 12.2-Verzeichnisse mit NCCL 2.18.5 aktualisiert
EFA wurde von Version 1.24.1 auf die neueste Version 1.26.1 aktualisiert
Hinzugefügt
2.2 bei//-12.2 hinzugefügt CUDA12 usr/local/cuda
Entfernt
Die Unterstützung für CUDA 11.5 und CUDA 11.6 wurde entfernt
Veröffentlichungsdatum: 2023-09-26
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230926
Hinzugefügt
Änderungen am net.naming-schema wurden hinzugefügt, um ein unvorhersehbares Problem mit der Benennung (Link) der Netzwerkschnittstelle zu beheben, das auf P5 aufgetreten ist.
Diese Änderung wird vorgenommen, indem net.naming-scheme=v247 in den Linux-Boot-Argumenten in der Datei/gesetzt wird etc/default/grub
Veröffentlichungsdatum: 2023-08-30
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230830
Aktualisiert
Das aws-ofi-nccl Plugin wurde von v1.7.1 auf v1.7.2 aktualisiert
Datum der Veröffentlichung: 2023-08-11
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230811
Hinzugefügt
Dieses AMI bietet jetzt Unterstützung für Trainingsfunktionen mit mehreren Knoten auf P5 und allen zuvor EC2 unterstützten Instances.
Für EC2 P5-Instances wird die Verwendung von NCCL 2.18 empfohlen. Es wurde zu den Versionen .0 und .1 hinzugefügt. CUDA12 CUDA12
Entfernt
Die Unterstützung für .3 und .4 wurde entfernt. CUDA11 CUDA11
Datum der Veröffentlichung: 2023-08-04
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230804
Aktualisiert
Das OFI NCCL-Plugin wurde auf Version 1.7.1 aktualisiert AWS
Made CUDA11 .8 als Standard, da PyTorch 2.0 11.8 unterstützt und für EC2 P5-Instances wird empfohlen, >= .8 zu verwenden. CUDA11
LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Für jede andere Cuda-Version definieren Sie LD_LIBRARY_PATH bitte entsprechend.
Die Verzeichnisse CUDA 12.0, 12.1 wurden mit NCCL 2.18.3 aktualisiert
Fixed
Das im früheren Veröffentlichungsdatum 2023-07-19 erwähnte Problem beim Laden von Nvidia Fabric Manager (FM) -Paketen wurde behoben.
Veröffentlichungsdatum: 2023-07-19
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230719
Aktualisiert
EFA wurde von 1.22.1 auf 1.24.1 aktualisiert
Der Nvidia-Treiber wurde von 525.85.12 auf 535.54.03 aktualisiert
Hinzugefügt
Es wurden C-State-Änderungen hinzugefügt, um den Leerlaufstatus des Prozessors zu deaktivieren, indem der maximale C-Status auf C1 gesetzt wurde. Diese Änderung wird vorgenommen, indem `intel_idle.max_cstate=1 processor.max_cstate=1` in den Linux-Boot-Argumenten in der Datei/gesetzt wird etc/default/grub
AWS EC2 Unterstützung für P5-Instanzen:
EC2 P5-Instanzunterstützung für Workflows hinzugefügt, die einen einzelnen Knoten/eine einzelne Instanz verwenden. Unterstützung mehrerer Knoten (z. B. für Schulungen mit mehreren Knoten) mithilfe von EFA (Elastic Fabric Adapter) und dem AWS OFI NCCL-Plugin wird in einer kommenden Version hinzugefügt.
Bitte verwenden Sie CUDA>=11.8 für eine optimale Leistung.
Bekanntes Problem: Das Laden des Nvidia Fabric Manager (FM) -Pakets auf P5 dauert einige Zeit. Kunden müssen nach dem Start der P5-Instance 2-3 Minuten warten, bis FM geladen wird. Um zu überprüfen, ob FM gestartet wurde, führen Sie bitte den Befehl sudo systemctl is-active nvidia-fabricmanager aus. Er sollte wieder aktiv sein, bevor Sie einen Workflow starten. Dies wird in der kommenden Version verbessert.
Datum der Veröffentlichung: 2023-05-19
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230519
Aktualisiert
EFA wurde auf die neueste Version 1.22.1 aktualisiert
Die NCCL-Version für CUDA 12.1 wurde auf 2.17.1 aktualisiert
Hinzugefügt
CUDA121.1 bei/usr/local/cuda-12.1 hinzugefügt
Unterstützung für NVIDIA Data Center GPU Monitor (DCGM)
wurde über das Paket hinzugefügt datacenter-gpu-manager Sie können den Status dieses Dienstes mithilfe der folgenden Abfrage überprüfen: sudo systemctl status nvidia-dcgm
Ephemeral NVMe Instance Stores werden jetzt automatisch an unterstützte EC2 Instances gemountet, und auf den Speicher kann im Ordner//zugegriffen werden. opt/dlami/nvme Sie können diesen Dienst auf folgende Weise überprüfen oder ändern:
Überprüfen Sie den Status des NVMe Dienstes: sudo systemctl status dlami-nvme
Um auf den Dienst zuzugreifen oder ihn zu ändern:/_ephemeral_drives.sh opt/aws/dlami/bin/nvme
NVMe volumes bot die schnellsten und effizientesten Speicherlösungen für Workflows mit hohem Durchsatz, die IOPS-Leistung erfordern. Ephemeral NVMe Instance Stores sind in den Kosten der Instances enthalten, sodass für diesen Service keine zusätzlichen Kosten anfallen.
NVMe Instance-Speicher werden nur auf EC2 Instances bereitgestellt, die sie unterstützen. Informationen zu EC2 Instances mit NVMe unterstützten Instance-Speichern finden Sie unter Verfügbare Instance-Speicher-Volumes und überprüfen Sie, ob diese NVMe unterstützt werden.
Um die Festplattenleistung zu verbessern und die Kosten beim ersten Schreiben zu reduzieren, können Sie die Instance-Speicher initialisieren (beachten Sie, dass dieser Vorgang je nach EC2 Instance-Typ Stunden dauern kann) — Initialisieren Sie Instance-Speicher-Volumes auf Instances EC2
HINWEIS: NVMe Instance-Speicher werden auf der Instance bereitgestellt und sind nicht wie EBS mit dem Netzwerk verbunden. Die Daten auf diesen NVMe Volumes können beim Neustart oder Stopp Ihrer Instance verloren gehen.
Datum der Veröffentlichung: 17.04.2023
AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230414
Aktualisiert
Der DLAMI-Name wurde von AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} auf Deep Learning Base GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD} aktualisiert
Bitte beachten Sie, dass wir das neueste DLAMI mit dem alten AMI-Namen ab dieser Version einen Monat lang unterstützen werden, falls Support benötigt wird. Kunden können ihre Betriebssystempakete apt-get update && apt-get upgrade aktualisieren, um Sicherheitspatches zu verwenden.
Der Pfad zum AWS OFI-NCCL-Plugin wurde von/-ofi-nccl/ aktualisiert usr/local/cuda-xx.x/efa/ to /opt/aws
NCCL wurde auf einen benutzerdefinierten GIT-Zweig
von v2.16.2 aktualisiert, der von einem NCCL-Team für alle CUDA-Versionen gemeinsam verfasst wurde. AWS In AWS der Infrastruktur schneidet es besser ab.
Hinzugefügt
CUDA12.0 bei/usr/local/cuda-12.0 hinzugefügt
AWS FSx
hinzugefügt Unterstützung für Python-Version 3.9 in/usr/bin/python3.9 hinzugefügt
Beachten Sie, dass diese Änderung nicht das Standardsystem Python ersetzt. Python3 zeigt weiterhin auf das System Python3.8.
Auf Python3.9 kann mit den folgenden Befehlen zugegriffen werden:
/usr/bin/python3.9 python3.9
Entfernt
Veröffentlichungsdatum: 25.05.2022
AMI-Name: AWS Deep Learning Base AMI-GPU CUDA 11 (Ubuntu 20.04) 20220523
Aktualisiert
Diese Version bietet Unterstützung für die neue Instanz p4de.24xlarge. EC2
Auf aws-efa-installer Version 1.15.2 aktualisiert
Auf Version 1.3.0-aws aktualisiert aws-ofi-nccl, die die Topologie für p4de.24xlarge enthält.
Veröffentlichungsdatum: 25.03.2022
AMI-Name: AWS Deep Learning Base AMI-GPU CUDA 11 (Ubuntu 20.04) 20220325
Aktualisiert
Die EFA-Version wurde von 1.15.0 auf 1.15.1 aktualisiert
Datum der Veröffentlichung: 17.03.2022
AMI-Name: AWS Deep Learning Base AMI-GPU CUDA 11 (Ubuntu 20.04) 20220323
Hinzugefügt
Erste Version