AWS Deep-Learning-Base-GPU-AMI (Ubuntu 22.04)

Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.

AMI-Namensformat

Deep Learning Base OSS Nvidia-Treiber-GPU-AMI (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Unterstützte Instanzen

Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.

Das AMI umfasst Folgendes:

Unterstützter AWS Service: Amazon EC2
Betriebssystem: Ubuntu 22.04
Rechenarchitektur: x86
Die neueste verfügbare Version ist für die folgenden Pakete installiert:
- Linux-Kernel: 6. 8
- FSx Glanz
- Docker
- AWS CLI v2 bei/usr/local/bin/aws2 und AWS CLI v1 bei/usr/bin/aws
- NVIDIA DCGM
- Nvidia-Container-Toolkit:
  - Versionsbefehl: -V nvidia-container-cli
- NVIDIA-Docker2:
  - Versionsbefehl: nvidia-docker version
NVIDIA-Treiber: 570.172.08
NVIDIA CUDA 12.4-12.6- und 12.8-Stapel:
- Installationsverzeichnisse für CUDA, NCCL und cuDDN:/-xx.x/ usr/local/cuda
  - Beispiel:/-12.8/ usr/local/cuda-12.8/ , /usr/local/cuda
- Kompilierte NCCL-Version: 2.26.5
- Standard-CUDA: 12.8
  - PATH//usr/local/cudazeigt auf CUDA 12.8
  - Die folgenden Umgebungsvariablen wurden aktualisiert:
    
    LD_LIBRARY_PATH soll/64 haben usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib
    PATH soll//haben usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
    Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
EFA-Installationsprogramm: 1.43.1
Nvidia GDRCopy: 2.5.1
AWS Das OFI NCCL-Plugin wird mit dem EFA-Installationsprogramm geliefert
- Die Pfade/opt/amazon/ofi-nccl/lib/x86_64-linux-gnu and /opt/amazon/ofi-nccl/efawerden zu LD_LIBRARY_PATH hinzugefügt.
AWS CLI v2 bei//2 und v1 bei/usr/local/bin/aws AWS CLI usr/bin/aws
EBS-Volumetyp: gp3
Python:/usr/bin/python3.10
NVMe Speicherort des Instanzspeichers (bei unterstützten EC2 Instanzen):/opt/dlami/nvme

AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):

OSS Nvidia-Treiber:


SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \
    aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/$SSM_PARAMETER  \
    --query "Parameter.Value" \
    --output text

AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):

OSS Nvidia-Treiber:


aws ec2 describe-images --region us-east-1 \
      --owners amazon \
      --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
      --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
      --output text

Hinweise

NVIDIA-Container-Toolkit 1.17.4

In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.

EFA-Updates von 1.37 auf 1.38 (Veröffentlichung am 31.01.2025)

EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das jetzt in/-ofi-nccl/ zu finden ist. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.

Unterstützung mehrerer ENI

Ubuntu 22.04 richtet das Quell-Routing automatisch auf mehreren ein und konfiguriert es NICss mithilfe von Cloud-Init beim ersten Start. Wenn Ihr Arbeitsablauf den attaching/detaching Vorgang beinhaltet, ENIs während eine Instanz gestoppt ist, muss den Cloud-Init-Benutzerdaten eine zusätzliche Konfiguration hinzugefügt werden, um die korrekte Konfiguration der NICs während dieser Ereignisse sicherzustellen. Ein Beispiel für die Cloud-Konfiguration finden Sie unten.
Weitere Informationen zur Konfiguration der Cloud-Konfiguration für Ihre Instanzen finden Sie in dieser Canonical-Dokumentation - -/https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automaticallysetup-multiple-nics


#cloud-config
# apply network config on every boot and hotplug event
updates:
  network:
    when: ['boot', 'hotplug']

Unterstützungspolitik

Diese AMIs Komponenten dieses AMI, wie CUDA-Versionen, können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container oder zur Reduzierung der AMI-Größe in einer future Version ohne vorherige Ankündigung entfernt und geändert werden. Wir entfernen CUDA-Versionen, AMIs wenn sie nicht von einer unterstützten Framework-Version verwendet werden.

EC2 Instanzen mit mehreren Netzwerkkarten

Viele Instance-Typen, die EFA unterstützen, verfügen auch über mehrere Netzwerkkarten.
DeviceIndex ist für jede Netzwerkkarte eindeutig und muss eine nicht negative Ganzzahl sein, die unter dem Grenzwert von ENIs per NetworkCard liegt. Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind.
- Erstellen Sie für die primäre Netzwerkschnittstelle (Netzwerkkartenindex 0, Geräteindex 0) eine EFA-Schnittstelle (EFA mit ENA). Sie können eine Nur-EFA-Netzwerkschnittstelle nicht als primäre Netzwerkschnittstelle verwenden.
- Verwenden Sie für jede weitere Netzwerkschnittstelle den nächsten ungenutzten Netzwerkkartenindex, Geräteindex 1, und je nach Anwendungsfall, wie z. B. ENA-Bandbreitenanforderungen oder IP-Adressraum, entweder eine EFA (EFA mit ENA) oder eine reine EFA-Netzwerkschnittstelle. Anwendungsfälle finden Sie beispielsweise unter EFA-Konfiguration für P5-Instances.
- Weitere Informationen finden Sie im EFA-Leitfaden hier.

P6-B200-Instanzen

P6-B200 enthalten 8 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

P5en-Instanzen

P5en enthalten 16 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ....
     "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

P5/P5e-Instanzen

P5- und P5e-Instances enthalten 32 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ...
     "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

Die Kernel-Version wird mit dem folgenden Befehl gepinnt:


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch aktualisieren möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
```
Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.

Veröffentlichungsdatum: 2025-07-22

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250722

Aktualisiert

Der Nvidia-Treiber wurde von 570.158.01 auf 570.172.08 aktualisiert, um CVE-Probleme zu beheben, die im Nvidia-Sicherheitsbulletin für Juli enthalten sind

Datum der Veröffentlichung: 2025-05-16

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250516

Hinzugefügt

Unterstützung für P6-B200-Instanzen wurde hinzugefügt EC2

Aktualisiert

Der EFA Installer wurde von Version 1.39.0 auf 1.40.0 aktualisiert
Aktualisieren Sie das AWS OFI NCCL Plugin von Version 1.13.0-aws auf 1.14.2-aws
Die kompilierte NCCL-Version wurde von Version 2.22.3 auf 2.26.5 aktualisiert
Die Standard-CUDA-Version wurde von Version 12.6 auf 12.8 aktualisiert
Die Nvidia DCGM-Version wurde von 3.3.9 auf 4.4.3 aktualisiert

Datum der Veröffentlichung: 2025-05-05

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250503

Aktualisiert

GDRCopy Von 2.4.1 auf 2.5.1 aktualisiert

Datum der Veröffentlichung: 24.04.2025

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250424

Aktualisiert

Der Nvidia-Treiber wurde von Version 570.124.06 auf 570.133.20 aktualisiert und entspricht nun der Adresse CVEs , die im Sicherheitsbulletin für NVIDIA GPU-Bildschirmtreiber vom April 2025 enthalten ist

Veröffentlichungsdatum: 2025-02-17

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250214

Aktualisiert

Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert
- Weitere Informationen finden Sie auf der Seite mit den Versionshinweisen hier:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
- In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.

Entfernt

Die Benutzerbereichsbibliotheken cuobj und nvdisasm, die vom NVIDIA CUDA-Toolkit bereitgestellt wurden, um die im NVIDIA CUDA Toolkit Security Bulletin vom 18. Februar 2025 enthaltenen Probleme zu beheben, wurden entfernt CVEs

Veröffentlichungsdatum: 2025-02-07

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250205

Hinzugefügt

CUDA-Toolkit Version 12.6 wurde im Verzeichnis/-12.6 hinzugefügt usr/local/cuda

Entfernt

Die CUDA-Versionen 12.1 und 12.2 wurden aus diesem DLAMI entfernt. Kunden können diese Versionen von NVIDIA über den folgenden Link installieren
- https://developer.nvidia.com/cuda-toolkit-archive

Veröffentlichungsdatum: 2025-01-31

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250131

Aktualisiert

Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert
- EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.
Das Nvidia Container Toolkit wurde von 1.17.3 auf 1.17.4 aktualisiert

Datum der Veröffentlichung: 2025-01-17

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20250117

Aktualisiert

Der Nvidia-Treiber wurde von Version 550.127.05 auf 550.144.03 aktualisiert und entspricht nun der Adresse CVEs , die im Sicherheitsbulletin für NVIDIA GPU-Bildschirmtreiber vom Januar 2025 enthalten ist

Datum der Veröffentlichung: 18.11.2024

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20241115

Hinzugefügt

FSx Amazon-Paket für Lustre-Unterstützung hinzugefügt.

Fixed

Aufgrund einer Änderung im Ubuntu-Kernel zur Behebung eines Fehlers in der KASLR-Funktionalität (Kernel Address Space Layout Randomization) können G4Dn/G5-Instances CUDA auf dem OSS-Nvidia-Treiber nicht ordnungsgemäß initialisieren. Um dieses Problem zu beheben, enthält dieses DLAMI Funktionen, die den proprietären Treiber für G4Dn- und G5-Instances dynamisch laden. Bitte rechnen Sie mit einer kurzen Initialisierungszeit für diesen Ladevorgang, um sicherzustellen, dass Ihre Instanzen ordnungsgemäß funktionieren.

Um den Status und den Zustand dieses Dienstes zu überprüfen, können Sie den folgenden Befehl verwenden:


sudo systemctl is-active dynamic_driver_load.service
active

Datum der Veröffentlichung: 2024-10-23

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20241023

Aktualisiert

Der Nvidia-Treiber wurde von Version 550.90.07 auf 550.127.05 aktualisiert und entspricht nun der Adresse, die im NVIDIA GPU Display Security Bulletin für Oktober 2024 enthalten ist CVEs

Veröffentlichungsdatum: 2024-10-01

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240930

Aktualisiert

Der Nvidia-Treiber und der Fabric Manager wurden von Version 535.183.01 auf 550.90.07 aktualisiert
Das Nvidia Container Toolkit wurde von Version 1.16.1 auf 1.16.2 aktualisiert, wodurch die Sicherheitslücke CVE-2024-0133 behoben wurde.
Die EFA-Version wurde von 1.32.0 auf 1.34.0 aktualisiert
NCCL wurde für alle CUDA-Versionen auf die neueste Version 2.22.3 aktualisiert
- CUDA 12.1, 12.2 wurde von 2.18.5+ 2 aktualisiert CUDA12
- CUDA 12.3 wurde von Version 2.21.5+ aktualisiert. CUDA12

Hinzugefügt

CUDA-Toolkit-Version 12.4 wurde im Verzeichnis/-12.4 hinzugefügt usr/local/cuda
Unterstützung für P5e-Instanzen hinzugefügt. EC2

Veröffentlichungsdatum: 2024-08-19

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20240816

Hinzugefügt

Unterstützung für die G6e-Instanz hinzugefügt. EC2

Veröffentlichungsdatum: 2024-06-06

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20240606

Aktualisiert

Die Nvidia-Treiberversion wurde von 535.161.08 auf 535.183.01 aktualisiert

Datum der Veröffentlichung: 2024-05-15

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20240513

Entfernt

Die Unterstützung von Amazon FSx for Lustre wurde in dieser Version aufgrund von Inkompatibilität mit den neuesten Ubuntu 22.04-Kernelversionen entfernt. Die Support FSx für Lustre wird wieder aktiviert, sobald die neueste Kernelversion unterstützt wird. Kunden, die Lustre benötigen FSx , sollten weiterhin das Deep Learning Base GPU AMI (Ubuntu 20.04) verwenden.

Datum der Veröffentlichung: 2024-04-29

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 22.04) 20240429

Hinzugefügt

Erste Veröffentlichung des Deep Learning Base OSS DLAMI für Ubuntu 22.04

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Basis-GPU-AMI (Ubuntu 24.04)

Basis-GPU-AMI (Amazon Linux 2)