AWS Deep-Learning-Base-GPU-AMI (Ubuntu 20.04) - AWS Deep Learning AMIs

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Deep-Learning-Base-GPU-AMI (Ubuntu 20.04)

Hinweis außerhalb des Support

  • Ubuntu Linux 20.04 LTS erreicht am 31. Mai 2025 das Ende seines fünfjährigen LTS-Fensters und wird vom Hersteller nicht mehr unterstützt. Folglich wird das AWS Deep Learning Base GPU AMI (Ubuntu 20.04) nach dem 31. Mai 2025 keine Updates mehr haben. Frühere Versionen werden weiterhin verfügbar sein. Bitte beachten Sie, dass jedes öffentlich veröffentlichte AMI 2 Jahre EC2 nach seinem Erstellungsdatum als veraltet gilt. Weitere Informationen finden Sie unter Amazon EC2 AMI verwerfen.

  • Drei Monate lang, bis zum 31. August 2025, wird Support nur für Funktionsprobleme (keine Sicherheitspatches) bereitgestellt.

  • Benutzer von Ubuntu 20.04 DLAMI sollten zu AWS Deep Learning Base GPU AMI (Ubuntu 22.04) oder AWS Deep Learning Base GPU AMI (Ubuntu 24.04) wechseln. Alternativ kann AWS Deep Learning Base AMI (Amazon Linux 2023) verwendet werden.

Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.

AMI-Namensformat

  • Deep Learning Base OSS Nvidia-Treiber-GPU-AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}

EC2 Unterstützte Instanzen

  • Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.

  • Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn

Das AMI umfasst Folgendes:

  • Unterstützter AWS Service: Amazon EC2

  • Betriebssystem: Ubuntu 20.04

  • Rechenarchitektur: x86

  • Die neueste verfügbare Version ist für die folgenden Pakete installiert:

    • Linux Kernel 5.15

    • FSx Glanz

    • Docker

    • AWS CLI v2 bei/usr/local/bin/aws2 und AWS CLI v1 bei/usr/bin/aws

    • NVIDIA DCGM

    • Nvidia-Container-Toolkit:

      • Versionsbefehl: -V nvidia-container-cli

    • NVIDIA-Docker2:

      • Versionsbefehl: nvidia-docker version

  • NVIDIA-Treiber:

    • OS Nvidia-Treiber: 550.163.01

    • Proprietärer Nvidia-Treiber: 550.163.01

  • NVIDIA CUDA 11.7, 12.1-12.4-Stapel:

    • Installationsverzeichnisse für CUDA, NCCL und cuDDN:/-xx.x/ usr/local/cuda

      • Beispiel:/-12.1/ usr/local/cuda

    • Kompilierte NCCL-Version: 2.22.3+ .4 CUDA12

    • Standard-CUDA: 12.1

      • PATH//usr/local/cudazeigt auf CUDA 12.1

      • Die folgenden Umgebungsvariablen wurden aktualisiert:

        • LD_LIBRARY_PATH soll/haben usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH soll//haben usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include

        • Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.

    • Standort der NCCL-Tests:

      • all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Um NCCL-Tests ausführen zu können, muss LD_LIBRARY_PATH mit den folgenden Aktualisierungen bestanden werden.

        • Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.

  • EFA-Installationsprogramm: 1.39.0

  • Nvidia: 2,4 GDRCopy

  • AWS OFI NCCL-Plugin: wird als Teil des EFA Installer-AWS installiert

    • AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build

    • Der Installationspfad:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libwurde zu LD_LIBRARY_PATH hinzugefügt.

    • Testet den Pfad für Ring, message_transfer:/opt/aws-ofi-nccl/tests

  • EBS-Volumetyp: gp3

  • Python:/usr/bin/python3.9

  • NVMe Speicherort des Instanzspeichers (auf unterstützten EC2 Instanzen):/opt/dlami/nvme

  • AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):

    • OSS Nvidia-Treiber:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • Eigener Nvidia-Treiber:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):

    • OSS Nvidia-Treiber:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Eigener Nvidia-Treiber:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Hinweise

NVIDIA-Container-Toolkit 1.17.4

In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.

EFA-Updates von 1.37 auf 1.38 (Veröffentlichung am 04.02.2025)

EFA bündelt jetzt das AWS OFI NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.

Unterstützungspolitik

Komponenten dieses AMI wie CUDA-Versionen können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container oder zur Reduzierung der AMI-Größe in einer future Version ohne vorherige Ankündigung entfernt und geändert werden. Wir entfernen CUDA-Versionen, AMIs wenn sie nicht von einer unterstützten Framework-Version verwendet werden.

EC2 Instanzen mit mehreren Netzwerkkarten
  • Viele Instance-Typen, die EFA unterstützen, verfügen auch über mehrere Netzwerkkarten.

  • DeviceIndex ist für jede Netzwerkkarte eindeutig und muss eine nicht negative Ganzzahl sein, die unter dem Grenzwert von ENIs per NetworkCard liegt. Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind.

    • Erstellen Sie für die primäre Netzwerkschnittstelle (Netzwerkkartenindex 0, Geräteindex 0) eine EFA-Schnittstelle (EFA mit ENA). Sie können eine Nur-EFA-Netzwerkschnittstelle nicht als primäre Netzwerkschnittstelle verwenden.

    • Verwenden Sie für jede weitere Netzwerkschnittstelle den nächsten ungenutzten Netzwerkkartenindex, Geräteindex 1, und je nach Anwendungsfall, wie z. B. ENA-Bandbreitenanforderungen oder IP-Adressraum, entweder eine EFA (EFA mit ENA) oder eine reine EFA-Netzwerkschnittstelle. Anwendungsfälle finden Sie beispielsweise unter EFA-Konfiguration für P5-Instances.

    • Weitere Informationen finden Sie im EFA-Leitfaden hier.

P5/P5e-Instanzen
  • P5- und P5e-Instances enthalten 32 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en-Instanzen
  • P5en enthalten 16 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Die Kernel-Version wird mit dem folgenden Befehl gepinnt:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.

Veröffentlichungsdatum: 2025-04-24

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250424

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250424

Aktualisiert

Veröffentlichungsdatum: 2025-02-17

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250214

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250214

Aktualisiert
Entfernt

Veröffentlichungsdatum: 04.02.2025

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250204

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250204

Aktualisiert
  • Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert

    • EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.

Entfernt

Datum der Veröffentlichung: 2025-01-17

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20250117

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20250117

Aktualisiert

Veröffentlichungsdatum: 2024-12-09

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20241206

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20241206

Aktualisiert
  • Das Nvidia Container Toolkit wurde von Version 1.17.0 auf 1.17.3 aktualisiert

Veröffentlichungsdatum: 2024-11-22

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20241122

Hinzugefügt
  • Unterstützung für P5en-Instances hinzugefügt. EC2

Aktualisiert
  • Der EFA Installer wurde von Version 1.35.0 auf 1.37.0 aktualisiert

  • Aktualisieren Sie das AWS OFI NCCL Plugin von Version 1.12.1-aws auf 1.13.0-aws

Datum der Veröffentlichung: 2024-10-26

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20241025

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20241025

Aktualisiert

Veröffentlichungsdatum: 2024-10-03

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240927

Aktualisiert
  • Das Nvidia Container Toolkit wurde von Version 1.16.1 auf 1.16.2 aktualisiert

Veröffentlichungsdatum: 2024-08-27

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240827

Aktualisiert
  • Der Nvidia-Treiber und der Fabric Manager wurden von Version 535.183.01 auf 550.90.07 aktualisiert

  • Die EFA-Version wurde von 1.32.0 auf 1.34.0 aktualisiert

  • NCCL wurde für alle CUDA-Versionen auf die neueste Version 2.22.3 aktualisiert

    • CUDA 11.7 wurde von Version 2.16.2+ 1.7 aktualisiert CUDA11

    • CUDA 12.1, 12.2 wurde von 2.18.5+ 2 aktualisiert CUDA12

    • CUDA 12.3 wurde von Version 2.21.5+ aktualisiert. CUDA12

Hinzugefügt
  • CUDA-Toolkit-Version 12.4 wurde im Verzeichnis/-12.4 hinzugefügt usr/local/cuda

  • Unterstützung für P5e-Instance hinzugefügt. EC2

Entfernt
  • Der CUDA Toolkit-Stack der Version 11.8 wurde entfernt, der im Verzeichnis/-11.8 vorhanden ist usr/local/cuda

Veröffentlichungsdatum: 2024-08-19

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240816

Hinzugefügt

Veröffentlichungsdatum: 2024-06-06

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240606

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240606

Aktualisiert
  • Die Nvidia-Treiberversion wurde von 535.161.08 auf 535.183.01 aktualisiert

Datum der Veröffentlichung: 2024-05-15

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240515

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240515

Hinzugefügt
  • CUDA117.7-Stack im Verzeichnis/usr/local/cuda-11.7 mit .7, NCCL 2.16.2, cuDNN 8.7.0 hinzugefügt, da 1.13 CUDA11 .7 unterstützt. PyTorch CUDA11

Datum der Veröffentlichung: 2024-05-02

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240502

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240502

Aktualisiert
Hinzugefügt
  • CUDA123.3-Stack mit CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7 hinzugefügt

Entfernt

Veröffentlichungsdatum: 2024-04-04

AMI-Namen: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240404

Hinzugefügt
  • Für den OSS-Nvidia-Treiber wurde Unterstützung für G6 DLAMIs - und Gr6-Instances hinzugefügt. EC2 Weitere Informationen finden Sie unter Empfohlene GPU-Instanzen.

Veröffentlichungsdatum: 2024-03-29

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240326

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240326

Aktualisiert
  • Der Nvidia-Treiber wurde sowohl im proprietären als auch im OSS-Nvidia-Treiber von 535.104.12 auf 535.161.08 aktualisiert. DLAMIs

  • Die Unterstützung für G4dn- und EC2 G5-Instances wurde vom proprietären Nvidia-Treiber DLAMI entfernt.

  • Die neuen unterstützten Instanzen für jedes DLAMI lauten wie folgt:

    • Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn

    • Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, P4d, P4de, P5.

Datum der Veröffentlichung: 2024-03-20

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240318

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240318

Hinzugefügt
  • awscliv2Im AMI unter//usr/local/bin/awshinzugefügt, zusammen mit awscliv1 als/usr/bin/awsauf Proprietary und OSS Nvidia Driver AMI

Datum der Veröffentlichung: 2024-03-14

AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240314

Aktualisiert
  • Aktualisierter OSS Nvidia-Treiber DLAMI mit G4dn- und G5-Unterstützung, basierend darauf sieht die aktuelle Unterstützung wie folgt aus:

    • Das proprietäre Nvidia-Treiber-AMI von Deep Learning Base (Ubuntu 20.04) unterstützt P3, P3dn, G3, G5, G4dn.

    • Das Deep Learning Base OSS Nvidia-Treiber-AMI (Ubuntu 20.04) unterstützt G5, G4dn, P4, P5.

  • DLAMIs Es wird empfohlen, die OSS-Nvidia-Treiber für G5, G4dn, P4, P5 zu verwenden.

Veröffentlichungsdatum: 2024-02-12

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240208

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240208

Aktualisiert
  • AWS Das OFI NCCL-Plugin wurde von 1.7.3 auf 1.7.4 aktualisiert

Datum der Veröffentlichung: 2024-02-01

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20240201

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20240201

Sicherheit
  • Die Runc-Paketversion wurde aktualisiert, um den Patch für CVE-2024-21626 zu verwenden.

Veröffentlichungsdatum: 2023-12-04

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber GPU AMI (Ubuntu 20.04) 20231204

  • Proprietäres Nvidia-Treiber-GPU-AMI von Deep Learning Base (Ubuntu 20.04) 20231204

Hinzugefügt
  • AWS Deep Learning AMI (DLAMI) ist in zwei separate Gruppen aufgeteilt:

    • DLAMI, das den proprietären Treiber von Nvidia verwendet (zur Unterstützung von P3, P3dn, G3, G5, G4dn).

    • DLAMI, das den Nvidia OSS-Treiber verwendet, um EFA zu aktivieren (zur Unterstützung von P4, P5).

  • Weitere Informationen zur DLAMI-Aufteilung finden Sie unter Wichtige Änderungen an DLAMI.

  • AWS CLI Abfragen für oben stehen unter dem Aufzählungspunkt Abfrage AMI-ID mit AWSCLI (Beispiel Region ist us-east-1)

Aktualisiert
  • EFA wurde von 1.26.1 auf 1.29.0 aktualisiert

  • GDRCopy aktualisiert von 2.3 auf 2.4

Datum der Veröffentlichung: 18.10.2023

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20231018

Aktualisiert
  • AWS Das OFI NCCL Plugin wurde von Version 1.7.2 auf Version 1.7.3 aktualisiert

  • Die CUDA 12.0-12.1-Verzeichnisse wurden mit der NCCL-Version 2.18.5 aktualisiert, sodass sie mit CUDA 12.2 übereinstimmen

  • CUDA12.1 wurde als Standard-CUDA-Version aktualisiert

    • LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Für Kunden, die zu einer anderen CUDA-Version wechseln möchten, definieren Sie die Variablen LD_LIBRARY_PATH und PATH bitte entsprechend.

Veröffentlichungsdatum: 2023-10-02

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20231002

Aktualisiert
  • Der NVIDIA-Treiber wurde von 535.54.03 auf 535.104.12 aktualisiert

    • Dieser neueste Treiber behebt wichtige NVML-ABI-Änderungen in der Treiberversion 535.54.03 sowie die Treiberregression in Version 535.86.10, die CUDA-Toolkits auf P5-Instances betraf. Einzelheiten zu den Korrekturen finden Sie in den folgenden NVIDIA-Versionshinweisen:

    • Einzelheiten zu den Korrekturen finden Sie in den folgenden NVIDIA-Versionshinweisen:

      • 4235941 — Behebung einer wichtigen Änderung in NVML ABI

      • 4228552 — CUDA Toolkit-Fehler behoben

  • CUDA 12.2-Verzeichnisse mit NCCL 2.18.5 aktualisiert

  • EFA wurde von Version 1.24.1 auf die neueste Version 1.26.1 aktualisiert

Hinzugefügt
  • 2.2 bei//-12.2 hinzugefügt CUDA12 usr/local/cuda

Entfernt
  • Die Unterstützung für CUDA 11.5 und CUDA 11.6 wurde entfernt

Veröffentlichungsdatum: 2023-09-26

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230926

Hinzugefügt

Veröffentlichungsdatum: 2023-08-30

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230830

Aktualisiert
  • Das aws-ofi-nccl Plugin wurde von v1.7.1 auf v1.7.2 aktualisiert

Datum der Veröffentlichung: 2023-08-11

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230811

Hinzugefügt
  • Dieses AMI bietet jetzt Unterstützung für Trainingsfunktionen mit mehreren Knoten auf P5 und allen zuvor EC2 unterstützten Instances.

  • Für EC2 P5-Instances wird die Verwendung von NCCL 2.18 empfohlen. Es wurde zu den Versionen .0 und .1 hinzugefügt. CUDA12 CUDA12

Entfernt
  • Die Unterstützung für .3 und .4 wurde entfernt. CUDA11 CUDA11

Datum der Veröffentlichung: 2023-08-04

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230804

Aktualisiert
  • Das OFI NCCL-Plugin wurde auf Version 1.7.1 aktualisiert AWS

  • Made CUDA11 .8 als Standard, da PyTorch 2.0 11.8 unterstützt und für EC2 P5-Instances wird empfohlen, >= .8 zu verwenden. CUDA11

    • LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Für jede andere Cuda-Version definieren Sie LD_LIBRARY_PATH bitte entsprechend.

  • Die Verzeichnisse CUDA 12.0, 12.1 wurden mit NCCL 2.18.3 aktualisiert

Fixed
  • Das im früheren Veröffentlichungsdatum 2023-07-19 erwähnte Problem beim Laden von Nvidia Fabric Manager (FM) -Paketen wurde behoben.

Veröffentlichungsdatum: 2023-07-19

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230719

Aktualisiert
  • EFA wurde von 1.22.1 auf 1.24.1 aktualisiert

  • Der Nvidia-Treiber wurde von 525.85.12 auf 535.54.03 aktualisiert

Hinzugefügt
  • Es wurden C-State-Änderungen hinzugefügt, um den Leerlaufstatus des Prozessors zu deaktivieren, indem der maximale C-Status auf C1 gesetzt wurde. Diese Änderung wird vorgenommen, indem `intel_idle.max_cstate=1 processor.max_cstate=1` in den Linux-Boot-Argumenten in der Datei/gesetzt wird etc/default/grub

  • AWS EC2 Unterstützung für P5-Instanzen:

    • EC2 P5-Instanzunterstützung für Workflows hinzugefügt, die einen einzelnen Knoten/eine einzelne Instanz verwenden. Unterstützung mehrerer Knoten (z. B. für Schulungen mit mehreren Knoten) mithilfe von EFA (Elastic Fabric Adapter) und dem AWS OFI NCCL-Plugin wird in einer kommenden Version hinzugefügt.

    • Bitte verwenden Sie CUDA>=11.8 für eine optimale Leistung.

    • Bekanntes Problem: Das Laden des Nvidia Fabric Manager (FM) -Pakets auf P5 dauert einige Zeit. Kunden müssen nach dem Start der P5-Instance 2-3 Minuten warten, bis FM geladen wird. Um zu überprüfen, ob FM gestartet wurde, führen Sie bitte den Befehl sudo systemctl is-active nvidia-fabricmanager aus. Er sollte wieder aktiv sein, bevor Sie einen Workflow starten. Dies wird in der kommenden Version verbessert.

Datum der Veröffentlichung: 2023-05-19

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230519

Aktualisiert
  • EFA wurde auf die neueste Version 1.22.1 aktualisiert

  • Die NCCL-Version für CUDA 12.1 wurde auf 2.17.1 aktualisiert

Hinzugefügt
  • CUDA121.1 bei/usr/local/cuda-12.1 hinzugefügt

  • Unterstützung für NVIDIA Data Center GPU Monitor (DCGM) wurde über das Paket hinzugefügt datacenter-gpu-manager

    • Sie können den Status dieses Dienstes mithilfe der folgenden Abfrage überprüfen: sudo systemctl status nvidia-dcgm

  • Ephemeral NVMe Instance Stores werden jetzt automatisch an unterstützte EC2 Instances gemountet, und auf den Speicher kann im Ordner//zugegriffen werden. opt/dlami/nvme Sie können diesen Dienst auf folgende Weise überprüfen oder ändern:

    • Überprüfen Sie den Status des NVMe Dienstes: sudo systemctl status dlami-nvme

    • Um auf den Dienst zuzugreifen oder ihn zu ändern:/_ephemeral_drives.sh opt/aws/dlami/bin/nvme

  • NVMe volumes bot die schnellsten und effizientesten Speicherlösungen für Workflows mit hohem Durchsatz, die IOPS-Leistung erfordern. Ephemeral NVMe Instance Stores sind in den Kosten der Instances enthalten, sodass für diesen Service keine zusätzlichen Kosten anfallen.

  • NVMe Instance-Speicher werden nur auf EC2 Instances bereitgestellt, die sie unterstützen. Informationen zu EC2 Instances mit NVMe unterstützten Instance-Speichern finden Sie unter Verfügbare Instance-Speicher-Volumes und überprüfen Sie, ob diese NVMe unterstützt werden.

  • Um die Festplattenleistung zu verbessern und die Kosten beim ersten Schreiben zu reduzieren, können Sie die Instance-Speicher initialisieren (beachten Sie, dass dieser Vorgang je nach EC2 Instance-Typ Stunden dauern kann) — Initialisieren Sie Instance-Speicher-Volumes auf Instances EC2

  • HINWEIS: NVMe Instance-Speicher werden auf der Instance bereitgestellt und sind nicht wie EBS mit dem Netzwerk verbunden. Die Daten auf diesen NVMe Volumes können beim Neustart oder Stopp Ihrer Instance verloren gehen.

Datum der Veröffentlichung: 17.04.2023

AMI-Name: Deep Learning Base-GPU-AMI (Ubuntu 20.04) 20230414

Aktualisiert
  • Der DLAMI-Name wurde von AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} auf Deep Learning Base GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD} aktualisiert

    • Bitte beachten Sie, dass wir das neueste DLAMI mit dem alten AMI-Namen ab dieser Version einen Monat lang unterstützen werden, falls Support benötigt wird. Kunden können ihre Betriebssystempakete apt-get update && apt-get upgrade aktualisieren, um Sicherheitspatches zu verwenden.

  • Der Pfad zum AWS OFI-NCCL-Plugin wurde von/-ofi-nccl/ aktualisiert usr/local/cuda-xx.x/efa/ to /opt/aws

  • NCCL wurde auf einen benutzerdefinierten GIT-Zweig von v2.16.2 aktualisiert, der von einem NCCL-Team für alle CUDA-Versionen gemeinsam verfasst wurde. AWS In AWS der Infrastruktur schneidet es besser ab.

Hinzugefügt
  • CUDA12.0 bei/usr/local/cuda-12.0 hinzugefügt

  • AWS FSx hinzugefügt

  • Unterstützung für Python-Version 3.9 in/usr/bin/python3.9 hinzugefügt

    • Beachten Sie, dass diese Änderung nicht das Standardsystem Python ersetzt. Python3 zeigt weiterhin auf das System Python3.8.

    • Auf Python3.9 kann mit den folgenden Befehlen zugegriffen werden:

      /usr/bin/python3.9 python3.9
Entfernt

Veröffentlichungsdatum: 25.05.2022

AMI-Name: AWS Deep Learning Base AMI-GPU CUDA 11 (Ubuntu 20.04) 20220523

Aktualisiert
  • Diese Version bietet Unterstützung für die neue Instanz p4de.24xlarge. EC2

    • Auf aws-efa-installer Version 1.15.2 aktualisiert

    • Auf Version 1.3.0-aws aktualisiert aws-ofi-nccl, die die Topologie für p4de.24xlarge enthält.

Veröffentlichungsdatum: 25.03.2022

AMI-Name: AWS Deep Learning Base AMI-GPU CUDA 11 (Ubuntu 20.04) 20220325

Aktualisiert
  • Die EFA-Version wurde von 1.15.0 auf 1.15.1 aktualisiert

Datum der Veröffentlichung: 17.03.2022

AMI-Name: AWS Deep Learning Base AMI-GPU CUDA 11 (Ubuntu 20.04) 20220323

Hinzugefügt
  • Erste Version