AWS Deep-Learning-Basis-AMI (Amazon Linux 2)

Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.

AMI-Namensformat

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version $ {XX.X}
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2), Version $ {XX.X}

Unterstützte Instanzen EC2

Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn

Das AMI umfasst Folgendes:

Unterstützter AWS Service: Amazon EC2
Betriebssystem: Amazon Linux 2
Rechenarchitektur: x86
Die neueste verfügbare Version ist für die folgenden Pakete installiert:
- Linux-Kernel: 5.10
- Docker
- AWS CLI v2 bei/usr/local/bin/aws2 und AWS CLI v1 bei/usr/bin/aws
- Nvidia-Container-Toolkit:
  - Versionsbefehl: -V nvidia-container-cli
- NVIDIA-Docker2:
  - Versionsbefehl: nvidia-docker version
Python:/usr/bin/python3.7
NVIDIA-Treiber:
- OS Nvidia-Treiber: 550.163.01
- Proprietärer Nvidia-Treiber: 550.163.01
NVIDIA CUDA 12.1-12.4-Stapel:
- Installationsverzeichnisse für CUDA, NCCL und cuDDN:/-xx.x/ usr/local/cuda
- Standard-CUDA: 12.1
  - PATH//usr/local/cudazeigt auf CUDA 12.1
  - Die folgenden Umgebungsvariablen wurden aktualisiert:
    
    LD_LIBRARY_PATH soll/haben usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
    PATH soll//haben usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
    Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
- Kompilierte NCCL-Version: 2.22.3
- Ort der NCCL-Tests:
  - all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
  - Um NCCL-Tests ausführen zu können, muss LD_LIBRARY_PATH mit den folgenden Aktualisierungen bestanden werden.
    
    Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs
    
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
    
    Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
EFA-Installationsprogramm: 1.38.0
Nvidia: 2,4 GDRCopy
AWS OFI NCCL: 1.13.2
- AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build
- Installationspfad:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 wurde zu LD_LIBRARY_PATH hinzugefügt.
EBS-Volumetyp: gp3

AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):

OSS Nvidia-Treiber:


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \
    --query "Parameter.Value" \
    --output text

Eigener Nvidia-Treiber:


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \
    --query "Parameter.Value" \
    --output text

AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):

OSS Nvidia-Treiber:


aws ec2 describe-images --region us-east-1 \
    --owners amazon \
    --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Eigener Nvidia-Treiber:


aws ec2 describe-images --region us-east-1 \
    --owners amazon \
    --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Hinweise

NVIDIA-Container-Toolkit 1.17.4

In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.

EFA-Updates von 1.37 auf 1.38 (Veröffentlichung am 04.02.2025)

EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.

Unterstützungspolitik

Diese AMIs Komponenten dieses AMI, wie CUDA-Versionen, können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container oder zur Reduzierung der AMI-Größe in einer future Version ohne vorherige Ankündigung entfernt und geändert werden. Wir entfernen CUDA-Versionen, AMIs wenn sie nicht von einer unterstützten Framework-Version verwendet werden.

EC2 Instanzen mit mehreren Netzwerkkarten

Viele Instance-Typen, die EFA unterstützen, verfügen auch über mehrere Netzwerkkarten.
DeviceIndex ist für jede Netzwerkkarte eindeutig und muss eine nicht negative Ganzzahl sein, die unter dem Grenzwert von ENIs per NetworkCard liegt. Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind.
- Erstellen Sie für die primäre Netzwerkschnittstelle (Netzwerkkartenindex 0, Geräteindex 0) eine EFA-Schnittstelle (EFA mit ENA). Sie können eine Nur-EFA-Netzwerkschnittstelle nicht als primäre Netzwerkschnittstelle verwenden.
- Verwenden Sie für jede weitere Netzwerkschnittstelle den nächsten ungenutzten Netzwerkkartenindex, Geräteindex 1, und entweder eine EFA (EFA mit ENA) oder eine reine EFA-Netzwerkschnittstelle, je nach Ihrem Anwendungsfall, z. B. den ENA-Bandbreitenanforderungen oder dem IP-Adressraum. Anwendungsfälle finden Sie beispielsweise unter EFA-Konfiguration für P5-Instances.
- Weitere Informationen finden Sie im EFA-Leitfaden hier.

P5/P5e-Instanzen

P5- und P5e-Instances enthalten 32 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

P5en-Instanzen

P5en enthalten 16 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

Die Kernel-Version wird mit dem folgenden Befehl gepinnt:
```
sudo yum versionlock kernel*
```
Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
```
sudo yum versionlock delete kernel*
sudo yum update -y
```
Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.

Veröffentlichungsdatum: 2025-04-22

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 69.3
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 67.0

Aktualisiert

Der Nvidia-Treiber wurde von Version 550.144.03 auf 550.163.01 aktualisiert, um die im Sicherheitsbulletin für NVIDIA-GPU-Bildschirmtreiber vom CVEs April 2025 enthaltene Adresse zu ersetzen

Veröffentlichungsdatum: 2025-02-17

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.5
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.3

Aktualisiert

Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert. Weitere Informationen finden Sie auf der Seite mit den Versionshinweisen hier:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v

Entfernt

Die Benutzerbereichsbibliotheken cuobj und nvdisasm, die vom NVIDIA CUDA-Toolkit bereitgestellt wurden, um die im NVIDIA CUDA Toolkit Security Bulletin vom 18. CVEs Februar 2025 enthaltenen Probleme zu beheben, wurden entfernt

Veröffentlichungsdatum: 2025-02-04

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.4
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.1

Aktualisiert

Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert

Veröffentlichungsdatum: 2025-01-17

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.3
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.0

Aktualisiert

Der Nvidia-Treiber wurde von Version 550.127.05 auf 550.144.03 aktualisiert, um die im Sicherheitsbulletin für NVIDIA-GPU-Bildschirmtreiber vom CVEs Januar 2025 enthaltene Adresse zu ersetzen

Veröffentlichungsdatum: 2025-01-06

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.2
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.9

Aktualisiert

EFA wurde von Version 1.34.0 auf 1.37.0 aktualisiert
AWS OFI NCCL wurde von Version 1.11.0 auf 1.13.0 aktualisiert

Veröffentlichungsdatum: 2024-12-09

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.1
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.8

Aktualisiert

Das Nvidia Container Toolkit wurde von Version 1.17.0 auf 1.17.3 aktualisiert

Veröffentlichungsdatum: 2024-11-09

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.9
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.6

Aktualisiert

Das Nvidia Container Toolkit wurde von Version 1.16.2 auf 1.17.0 aktualisiert und die Sicherheitslücke CVE-2024-0134 behoben.

Datum der Veröffentlichung: 22.10.2024

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.7
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.4

Aktualisiert

Der Nvidia-Treiber wurde von Version 550.90.07 auf 550.127.05 aktualisiert und entspricht nun der Adresse, die im NVIDIA GPU-Display-Sicherheitsbulletin für CVEs Oktober 2024 enthalten ist

Veröffentlichungsdatum: 2024-10-03

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI-Version (Amazon Linux 2)
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.2

Aktualisiert

Das Nvidia Container Toolkit wurde von Version 1.16.1 auf 1.16.2 aktualisiert und die Sicherheitslücke CVE-2024-0133 behoben.

Veröffentlichungsdatum: 2024-08-27

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.0

Aktualisiert

Der Nvidia-Treiber und der Fabric Manager wurden von Version 535.183.01 auf 550.90.07 aktualisiert
- Aufgrund der Empfehlungen von Nvidia wurde die Anforderung einer Mehrbenutzer-Shell aus Fabric Manager entfernt
- Weitere Informationen finden Sie hier unter Bekannte Probleme für den Tesla-Treiber 550.90.07
Die EFA-Version wurde von 1.32.0 auf 1.34.0 aktualisiert
NCCL wurde für alle CUDA-Versionen auf die neueste Version 2.22.3 aktualisiert
- CUDA 12.1, 12.2 wurde von 2.18.5+ 2 aktualisiert CUDA12
- CUDA 12.3 wurde von 2.21.5+ aktualisiert. CUDA12

Hinzugefügt

CUDA-Toolkit-Version 12.4 wurde im Verzeichnis/-12.4 hinzugefügt usr/local/cuda
Unterstützung für P5e-Instanzen hinzugefügt. EC2

Entfernt

Der CUDA Toolkit-Stack der Version 11.8 wurde entfernt, der im Verzeichnis/-11.8 vorhanden ist usr/local/cuda

Veröffentlichungsdatum: 2024-08-19

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 66.3

Hinzugefügt

Unterstützung für EC2 G6e-Instances hinzugefügt.

Veröffentlichungsdatum: 2024-06-06

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 65.4
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.9

Aktualisiert

Die Nvidia-Treiberversion wurde von 535.161.08 auf 535.183.01 aktualisiert

Datum der Veröffentlichung: 2024-05-02

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 64.7
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.2

Aktualisiert

Die EFA-Version wurde von Version 1.30 auf Version 1.32 aktualisiert
Das AWS OFI NCCL-Plugin wurde von Version 1.7.4 auf Version 1.9.1 aktualisiert
Das Nvidia-Container-Toolkit wurde von Version 1.13.5 auf Version 1.15.0 aktualisiert

Hinzugefügt

CUDA123.3-Stack mit CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7 hinzugefügt

Version 1.15.0 enthält NICHT die Pakete und nvidia-docker2. nvidia-container-runtime Es wird empfohlen, nvidia-container-toolkit Pakete direkt zu verwenden, indem Sie den Dokumenten zum Nvidia-Container-Toolkit folgen.

Entfernt

CUDA11.7, CUDA12 .0-Stapel entfernt, die bei/-12.0 vorhanden waren usr/local/cuda-11.7 and /usr/local/cuda
Das nvidia-docker2-Paket und sein Befehl nvidia-docker wurden als Teil des Nvidia-Container-Toolkit-Updates von 1.13.5 auf 1.15.0 entfernt, das NICHT die Pakete und nvidia-docker2 enthält. nvidia-container-runtime

Veröffentlichungsdatum: 2024-04-04

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 64.0

Hinzugefügt

Für den OSS-Nvidia-Treiber wurde DLAMIs Unterstützung für G6- und EC2 Gr6-Instances hinzugefügt

Veröffentlichungsdatum: 2024-03-29

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 62.3
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.2

Aktualisiert

Der Nvidia-Treiber wurde sowohl im proprietären als auch im OSS-Nvidia-Treiber von 535.104.12 auf 535.161.08 aktualisiert. DLAMIs
Die neuen unterstützten Instanzen für jedes DLAMI lauten wie folgt:
- Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn
- Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, P4d, P4de, P5.

Entfernt

Die Unterstützung für G4dn-, G5- und EC2 G3.16x-Instanzen wurde aus dem proprietären Nvidia-Treiber DLAMI entfernt.

Datum der Veröffentlichung: 20.03.2024

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 63.1

Hinzugefügt

awscliv2 wurde im AMI als//usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsauf dem OSS Nvidia Driver AMI hinzugefügt

Datum der Veröffentlichung: 2024-03-13

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 63.0

Aktualisiert

Aktualisierter OSS Nvidia-Treiber DLAMI mit G4dn- und G5-Unterstützung, basierend darauf sieht die aktuelle Unterstützung wie folgt aus:
- Das proprietäre Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) unterstützt P3, P3dn, G3, G4dn, G5.
- Das Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) unterstützt G4dn, G5, P4, P5.
DLAMIs Es wird empfohlen, die OSS-Nvidia-Treiber für G4dn, G5, P4, P5 zu verwenden.

Veröffentlichungsdatum: 2024-02-13

AMI-Namen

Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 62.1
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 62.1

Aktualisiert

Der OSS Nvidia-Treiber wurde von 535.129.03 auf 535.154.05 aktualisiert
EFA wurde von 1.29.0 auf 1.30.0 aktualisiert
AWS OFI NCCL wurde von 1.7.3-aws auf 1.7.4-aws aktualisiert

Datum der Veröffentlichung: 2024-02-01

AMI-Name: Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 62.0

Sicherheit

Die Runc-Paketversion wurde aktualisiert, um den Patch für CVE-2024-21626 zu verwenden.

Version 6.1.4

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 61.4

Aktualisiert

Der OSS-Nvidia-Treiber wurde von 535.104.12 auf 535.129.03 aktualisiert

Version 61.0

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 61.4

Aktualisiert

EFA wurde von 1.26.1 auf 1.29.0 aktualisiert
GDRCopy aktualisiert von 2.3 auf 2.4

Hinzugefügt

AWS Deep Learning AMI (DLAMI) ist in zwei separate Gruppen aufgeteilt:
- DLAMI, das den proprietären Treiber von Nvidia verwendet (zur Unterstützung von P3, P3dn, G3, G5, G4dn).
- DLAMI, das den Nvidia OSS-Treiber verwendet, um EFA zu aktivieren (zur Unterstützung von P4, P5).
Weitere Informationen zu DLAMI Split finden Sie in der öffentlichen Ankündigung.
AWS CLI Abfragen finden Sie unter dem Aufzählungspunkt Abfrage AMI-ID mit AWSCLI (Beispiel Region ist us-east-1)

Version 60.6

AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.6

Aktualisiert

AWS Das OFI NCCL Plugin wurde von Version 1.7.2 auf Version 1.7.3 aktualisiert
Die CUDA 12.0-12.1-Verzeichnisse wurden mit der NCCL-Version 2.18.5 aktualisiert
CUDA12.1 wurde als Standard-CUDA-Version aktualisiert
- LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
- Für Kunden, die zu einer anderen CUDA-Version wechseln möchten, definieren Sie bitte die Variablen LD_LIBRARY_PATH und PATH entsprechend.

Hinzugefügt

Kernel Live Patching ist jetzt aktiviert. Live-Patching ermöglicht es Kunden, Sicherheitslücken und kritische Bug-Patches auf einen laufenden Linux-Kernel anzuwenden, ohne Neustarts oder Unterbrechungen laufender Anwendungen. Bitte beachten Sie, dass die Live-Patching-Unterstützung für Kernel 5.10.192 am 30.11.23 endet.

Version 6.0.5

AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.5

Aktualisiert

Der NVIDIA-Treiber wurde von 535.54.03 auf 535.104.12 aktualisiert

Dieser neueste Treiber behebt wichtige NVML-ABI-Änderungen im 535.54.03-Treiber sowie die Treiberregression im Treiber 535.86.10, die CUDA-Toolkits auf P5-Instances betraf. Einzelheiten zu den Problembehebungen finden Sie in den folgenden NVIDIA-Versionshinweisen:
- 4235941 — Behebung einer wichtigen Änderung in NVML ABI
- 4228552 — CUDA Toolkit-Fehler behoben
CUDA 12.2-Verzeichnisse mit NCCL 2.18.5 aktualisiert
EFA wurde von 1.24.1 auf die neueste Version 1.26.1 aktualisiert

Hinzugefügt

2.2 bei//-12.2 hinzugefügt CUDA12 usr/local/cuda

Entfernt

Die Unterstützung für CUDA 11.5 und CUDA 11.6 wurde entfernt

Version 60.2

AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.2

Aktualisiert

aws-ofi-ncclDas Plugin wurde von v1.7.1 auf v1.7.2 aktualisiert

Version 60.0

Veröffentlichungsdatum: 2023-08-11

Hinzugefügt

Dieses AMI bietet jetzt Unterstützung für Trainingsfunktionen mit mehreren Knoten auf P5 und allen zuvor unterstützten Instances EC2
Für EC2 P5-Instances wird die Verwendung von NCCL 2.18 empfohlen. Es wurde zu Version 2.0 und .1 hinzugefügt. CUDA12 CUDA12

Entfernt

Die Unterstützung für .5 wurde entfernt. CUDA11

Version 5.9.2

Veröffentlichungsdatum: 2023-08-08

Entfernt

CUDA-11.3 und CUDA-11.4 wurden entfernt

Version 59.1

Veröffentlichungsdatum: 2023-08-03

Aktualisiert

Das AWS OFI NCCL-Plugin wurde auf v1.7.1 aktualisiert
Made CUDA11 .8 als Standard, da PyTorch 2.0 11.8 unterstützt und für EC2 P5-Instances wird empfohlen, >= .8 zu verwenden. CUDA11
- LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
- Für jede andere Cuda-Version definieren Sie LD_LIBRARY_PATH bitte entsprechend.

Fixed

Das in der früheren Version 2023-07-19 erwähnte Problem beim Laden von Nvidia Fabric Manager (FM) -Paketen wurde behoben.

Version 58.9

Veröffentlichungsdatum: 2023-07-19

Aktualisiert

Der Nvidia-Treiber wurde von 525.85.12 auf 535.54.03 aktualisiert
Das EFA-Installationsprogramm wurde von 1.22.1 auf 1.24.1 aktualisiert

Hinzugefügt

Es wurden C-State-Änderungen hinzugefügt, um den Leerlaufstatus des Prozessors zu deaktivieren, indem der maximale C-Status auf C1 gesetzt wurde. Diese Änderung wird vorgenommen, indem `intel_idle.max_cstate=1 processor.max_cstate=1` in den Linux-Boot-Argumenten in der Datei/gesetzt wird etc/default/grub
AWS EC2 Unterstützung für P5-Instanzen:
- EC2 P5-Instanzunterstützung für Workflows hinzugefügt, die einen einzelnen Knoten/eine einzelne Instanz verwenden. Unterstützung mehrerer Knoten (z. B. für Schulungen mit mehreren Knoten) mithilfe von EFA (Elastic Fabric Adapter) und dem AWS OFI NCCL-Plugin wird in einer kommenden Version hinzugefügt.
- Bitte verwenden Sie CUDA>=11.8 für eine optimale Leistung.
- Bekanntes Problem: Das Laden des Nvidia Fabric Manager (FM) -Pakets auf P5 dauert einige Zeit. Kunden müssen nach dem Start der P5-Instance 2-3 Minuten warten, bis FM geladen wird. Um zu überprüfen, ob FM gestartet wurde, führen Sie bitte den Befehl sudo systemctl is-active nvidia-fabricmanager aus. Er sollte wieder aktiv sein, bevor Sie einen Workflow starten. Dies wird in der kommenden Version behoben.

Version 58.0

Veröffentlichungsdatum: 2023-05-19

Entfernt

Der Stapel CUDA11 .0-11.2 wurde gemäß der im oberen Abschnitt dieses Dokuments genannten Support-Richtlinie entfernt.

Version 5.7.3

Veröffentlichungsdatum: 2023-04-06

Hinzugefügt

Nvidia 2.3 hinzugefügt GDRCopy

Version 56.8

Veröffentlichungsdatum: 2023-03-09

Aktualisiert

Der NVIDIA-Treiber wurde von 515.65.01 auf 525.85.12 aktualisiert

Hinzugefügt

usr/local/cudacuda-11.8 bei/-11.8/ hinzugefügt

Ausführung 56.0

Veröffentlichungsdatum: 2022-06

Aktualisiert

Die EFA-Version wurde von 1.17.2 auf 1.19.0 aktualisiert

Version 55.0

Veröffentlichungsdatum: 04.11.2022

Aktualisiert

Der NVIDIA-Treiber wurde von 510.47.03 auf 515.65.01 aktualisiert

Hinzugefügt

usr/local/cudacuda-11.7 unter/-11.7/ hinzugefügt

Ausführung 54.0

Veröffentlichungsdatum: 2015-09-15

Aktualisiert

Die EFA-Version wurde von 1.16.0 auf 1.17.2 aktualisiert

Version 53.3

Veröffentlichungsdatum: 25.05.2022

Aktualisiert

Auf Version aws-efa-installer 1.15.2 aktualisiert
Auf Version 1.3.0-aws aktualisiert aws-ofi-nccl, die die Topologie für p4de.24xlarge enthält.

Hinzugefügt

Diese Version bietet Unterstützung für p4de.24xlarge-Instances. EC2

Version 53.0

Veröffentlichungsdatum: 28.04.2022

Hinzugefügt

CloudWatch Amazon-Agent hinzugefügt
Es wurden drei systemd-Dienste hinzugefügt, die vordefinierte JSON-Dateien verwenden, die unter Pfadopt/aws/amazon-cloudwatch-agent/etc//verfügbar sind, um GPU-Metriken mithilfe des Linux-Benutzers cwagent zu konfigurieren
- dlami-cloudwatch-agent@minimal
  - Befehle zum Aktivieren von GPU-Metriken:
    
    sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
  - Es erstellt diese Metriken:utilization_gpu, utilization_memory
- dlami-cloudwatch-agent@partial
  - Befehle zum Aktivieren von GPU-Metriken:
    
    sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
  - Es erstellt diese Metriken:utilization_gpu,utilization_memory,memory_total,memory_used, memory_free
- dlami-cloudwatch-agent@all
  - Befehle zum Aktivieren von GPU-Metriken:
    
    sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
  - Es erstellt alle verfügbaren GPU-Metriken

Version 52.0

Veröffentlichungsdatum: 08.03.2022

Aktualisiert

Kernel-Version auf 5.10 aktualisiert

Version 51.0

Veröffentlichungsdatum: 04.03.2022

Aktualisiert

Der Nvidia-Treiber wurde auf 510.47.03 aktualisiert

Version 50.0

Veröffentlichungsdatum: 17.02.2022

Aktualisiert

Gesperrt aws-neuron-dkms und tensorflow-model-server-neuron sobald sie auf neuere Versionen aktualisiert werden, die von den in AMI vorhandenen Neuron-Paketen nicht unterstützt werden
- Befehle, falls der Kunde das Paket entsperren möchte, um es auf die neueste Version zu aktualisieren: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron

Version 49.0

Veröffentlichungsdatum: 13.01.2022

Hinzugefügt

CUDA112.2 mit den folgenden Komponenten hinzugefügt:
- cuDNN v8.1.1.33
- NCCL 2.8.4
- CUDA 11.2.2

Aktualisiert

Symlink Pip wurde auf Pip3 aktualisiert

Veraltungen

Veraltete Unterstützung für den Instanztyp P2
Python2.7 wurde verworfen und verwandte Python2.7-Pakete wie „python-dev“, „python-pip“ und „python-tk“ entfernt

Version 48.0

Veröffentlichungsdatum: 2021-12-27

Aktualisiert

org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar wurde aus den Cuda-Versionen entfernt, da es nicht verwendet wird und kein Risiko für Benutzer mit den Log4j-Dateien besteht. Weitere Informationen finden Sie unter https://nvidia.custhelp.com/app/answers/detail/a_id/5294.

Version 47.0

Veröffentlichungsdatum: 2021-11-24

Aktualisiert

EFA wurde auf 1.14.1 aktualisiert

Version 46.0

Veröffentlichungsdatum: 2021-11-12

Aktualisiert

Neuron-Pakete wurden von =1.5 aktualisiert. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, aws-neuron-tools =1.6.* bis =2.2. aws-neuron-dkms *, =1,6. aws-neuron-runtime-base *, aws-neuron-tools =2,0*.
Das Neuron-Paket aws-neuron-runtime =1.5.* wurde entfernt, da bei Neuron keine Runtime mehr als Daemon läuft und Runtime jetzt als Bibliothek in das Framework integriert ist.

Version 45.0

Veröffentlichungsdatum: 2021-10-21

Hinzugefügt

Sicherheitsscan-Berichte im JSON-Format sind unter//verfügbar. opt/aws/dlami/info

Version 44.0

Veröffentlichungsdatum: 2021-10-08

der Änderung

Für jeden Instance-Start mit DLAMI wird das Tag "aws-dlami-autogenerated-tag-do-not-delete" hinzugefügt, das es ermöglicht, Instance-Typ, Instance-ID, DLAMI-Typ und Betriebssysteminformationen AWS zu sammeln. Es werden keine Informationen zu den in der DLAMI verwendeten Befehlen gesammelt oder gespeichert. Es werden keine weiteren Informationen über das DLAMI gesammelt oder gespeichert. Um die Nutzungsverfolgung für Ihr DLAMI zu deaktivieren, fügen Sie Ihrer EC2 Amazon-Instance beim Start ein Tag hinzu. Das Tag sollte den Schlüssel OPT_OUT_TRACKING verwenden, wobei der zugehörige Wert auf true gesetzt ist. Weitere Informationen finden Sie unter Taggen Sie Ihre EC2 Amazon-Ressourcen.

Sicherheit

Docker-Version auf Docker-20.10.7-3 aktualisiert

Version 43.0

Veröffentlichungsdatum: 2021-08-24

der Änderung

„Notebook“ auf Version „6.4.1" aktualisiert.

Version 4.2.0

Veröffentlichungsdatum: 2021-07-23

der Änderung

Die Version des Nvidia-Treibers und des Fabric Managers wurde auf 450.142.00 aktualisiert.

Version 41.0

Veröffentlichungsdatum: 2021-06-24

der Änderung

Aktualisierte Neuron-Pakete gemäß Neuron Release v1.14.0

Version 40.0

Veröffentlichungsdatum: 2021-06-10

der Änderung

Die awscli-Version wurde auf 1.19.89 aktualisiert

Version 39.0

Veröffentlichungsdatum: 2021-05-27

Sicherheit

Die anfälligen CUDA-10.0-Komponenten (Visual Profiler, Nsight EE und JRE) wurden aus der CUDA-10.0-Installation (/-10.0) entfernt. usr/local/cuda

Version 38.0

Veröffentlichungsdatum: 2021-05-25

der Änderung

Runc auf den neuesten Stand gebracht

Version 37.0

Veröffentlichungsdatum: 2021-04-23

der Änderung

Die Version des Nvidia Tesla-Treibers und des Fabric Managers wurde auf 450.119.03 aktualisiert.

Version 36.1

Veröffentlichungsdatum: 2021-04-21

Fixed

Es wurde ein Problem behoben, das die Startgeschwindigkeit der Instance verlangsamte.

Version 36.0

Veröffentlichungsdatum: 2021-03-24

Hinzugefügt

tensorflow-model-server-neuronZur Unterstützung der Bereitstellung von Neuronenmodellen hinzugefügt.

der Änderung

Jupyterlab wurde auf Version 3.0.8 für Python3 aktualisiert.

Fixed

Die alte Installation von OpenMPI in/usr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpiist verfügbar.
Entfernt doppelte und nicht existierende Definitionen von Shell-Umgebungen, die die Shell-Umgebungsvariablen wie PATH und LD_LIBRARY_PATH verschmutzt haben. Als Ergebnis wurden ~/.dlami und/.sh hinzugefügt. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami

Sicherheit

Das Paket Cryptography wurde auf die Adresse CVE-2020-36242 aktualisiert

Version 35.0

Veröffentlichungsdatum: 2021-03-08

Hinzugefügt

TensorRT CUDA 11.0-Installation hinzugefügt

Version 34.3

Veröffentlichungsdatum: 25.02.2021

Fixed

Es wurde ein Tippfehler in der MOTD (Message of the Day) behoben, durch den Version 34.1 fälschlicherweise angezeigt wurde.

Version 34.2

Veröffentlichungsdatum: 2021-02-24

Sicherheit

Python2 und Python3 für CVE-2021-3177 gepatcht

Bekanntes Problem

Es gibt einen Tippfehler in der MOTD (Nachricht des Tages), durch den Version 34.1 falsch angezeigt wurde. Wir werden Version 34.3 veröffentlichen, um dieses Problem zu beheben.

Version 34.0

Veröffentlichungsdatum: 2021-02-09

der Änderung

Pip wurde für Python2 an Version 20.3.4 angeheftet. Dies ist die letzte Pip-Version, die Python2 und Python3.5 unterstützt.

Version 33.0

Veröffentlichungsdatum: 2021-01-19

der Änderung

Die cuDNN-Version wurde auf Version 8.0.5.39 in Version 2.0 und 8.1 aktualisiert. CUDA11 CUDA11

Version 3.2.0

Veröffentlichungsdatum: 2020-12-01

Hinzugefügt

CUDA11.1 mit NCCL 2.7.8, cuDNN 8.0.4.30 für Deep Learning AMI (Amazon Linux 2), Deep Learning AMI (Ubuntu 16.04), Deep Learning AMI (Ubuntu 18.04), Deep Learning Base AMI (Ubuntu 16.04), Deep Learning Base AMI (Ubuntu 18.04), Deep Learning Base AMI (Amazon Linux 2) hinzugefügt.

Version 3.1.0

Veröffentlichungsdatum: 2020-11-02

der Änderung

Das EFA-Installationsprogramm wurde auf Version 1.10.0 aktualisiert.
Die cuDNN-Version wurde auf v8.0.4.30 für CUDA 11.0 aktualisiert.
AWS Neuron wurde auf Version 1.1 aktualisiert

Version 30.0

Veröffentlichungsdatum: 2020-10-08

der Änderung

Die NVIDIA-Treiber- und Fabric Manager-Versionen wurden auf 450.80.02 aktualisiert
NCCL wurde für 2.0 auf 2.7.8 in aktualisiert CUDA11

Fixed

Es wurde ein Problem behoben, bei dem Yum ein Python-Paket verwaltete, das von pipmanagten Installationen überschrieben wurde. Die ausführbaren Dateien pip, pip3 und pip3.7 wurden aus dem /-Teil dieses Fixes verschoben. usr/binto /usr/local/binas

Version 29.0

Veröffentlichungsdatum: 2020-09-11

der Änderung

Der NVIDIA-Treiber wurde von Version 450.51.05 auf 450.51.06 aktualisiert
NVIDIA Fabric Manager Version 450.51.06 wurde hinzugefügt
EFA wurde auf 1.9.4 aktualisiert

Version 28.0

Veröffentlichungsdatum: 2020-08-19

der Änderung

CUDA 11.0-Stack mit NCCL 2.7.6 und cuDNN 8.0.2.39 hinzugefügt

Version 27.0

Veröffentlichungsdatum: 2020-08-07

der Änderung

EFA wurde von Version 1.7.1 auf 1.9.3 aktualisiert unter/opt/amazon/efa
Das Upgrade von Open MPI von Version 4.0.3 auf 4.0.4 in '/' usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun ist immer noch auf Version 4.0.3
Der NVIDIA-Treiber wurde von 440.33.01 auf 450.51.05 aktualisiert
Die NCCL-Version wurde in 0.2 von 2.6.4 auf 2.7.6 aktualisiert CUDA1

Version 26.0

Veröffentlichungsdatum: 2020-08-03

der Änderung

AWS OFI NCCL wurde auf den neuesten Stand gebracht. Weitere Informationen finden Sie hier.
Cuda 8.0/9.0/9.2 wurden aus dem AMI entfernt

Fixed

Es wurde ein Fehler behoben, bei dem die gemeinsam genutzte Objektdatei: libopencv_dnn.so.4.2 nicht geöffnet werden konnte.

Version 25.0

Veröffentlichungsdatum: 2020-07-19

der Änderung

Die EFA-Version wurde auf 1.7.1 aktualisiert, um NCCL 2.6.4 zu unterstützen
Die NCCL-Version wurde für CUDA 10.2 auf 2.6.4 aktualisiert
Die awscli-Version wurde von 1.16.76 auf 1.18.80 aktualisiert
Die boto3-Version wurde von 1.9.72 auf 1.14.3 aktualisiert

Version 24.1

Veröffentlichungsdatum: 2020-06-14

der Änderung

Docker-Version auf 19.03.6 aktualisiert

Version 24.0

Veröffentlichungsdatum: 2020-05-20

der Änderung

Docker-Version auf 19.03.6 aktualisiert

Version 23.0

Veröffentlichungsdatum: 2020-04-29

der Änderung

Aktualisierte Python-Paketversionen

Version 22.0

Veröffentlichungsdatum: 2020-03-04

der Änderung

CUDA 10.2-Stack hinzugefügt
CUDA 10.0 und 10.1 für cuDNN- und NCCL-Version aktualisiert

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Basis-GPU-AMI (Ubuntu 22.04)

Basis Qualcomm AMI (Amazon Linux 2)