AWS Deep-Learning-Basis-AMI (Amazon Linux 2) - AWS Deep Learning AMIs

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Deep-Learning-Basis-AMI (Amazon Linux 2)

Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.

AMI-Namensformat

  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version $ {XX.X}

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2), Version $ {XX.X}

Unterstützte Instanzen EC2

  • Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.

  • Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn

Das AMI umfasst Folgendes:

  • Unterstützter AWS Service: Amazon EC2

  • Betriebssystem: Amazon Linux 2

  • Rechenarchitektur: x86

  • Die neueste verfügbare Version ist für die folgenden Pakete installiert:

    • Linux-Kernel: 5.10

    • Docker

    • AWS CLI v2 bei/usr/local/bin/aws2 und AWS CLI v1 bei/usr/bin/aws

    • Nvidia-Container-Toolkit:

      • Versionsbefehl: -V nvidia-container-cli

    • NVIDIA-Docker2:

      • Versionsbefehl: nvidia-docker version

  • Python:/usr/bin/python3.7

  • NVIDIA-Treiber:

    • OS Nvidia-Treiber: 550.163.01

    • Proprietärer Nvidia-Treiber: 550.163.01

  • NVIDIA CUDA 12.1-12.4-Stapel:

    • Installationsverzeichnisse für CUDA, NCCL und cuDDN:/-xx.x/ usr/local/cuda

    • Standard-CUDA: 12.1

      • PATH//usr/local/cudazeigt auf CUDA 12.1

      • Die folgenden Umgebungsvariablen wurden aktualisiert:

        • LD_LIBRARY_PATH soll/haben usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH soll//haben usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include

        • Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.

    • Kompilierte NCCL-Version: 2.22.3

    • Ort der NCCL-Tests:

      • all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Um NCCL-Tests ausführen zu können, muss LD_LIBRARY_PATH mit den folgenden Aktualisierungen bestanden werden.

        • Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.

  • EFA-Installationsprogramm: 1.38.0

  • Nvidia: 2,4 GDRCopy

  • AWS OFI NCCL: 1.13.2

    • AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build

    • Installationspfad:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 wurde zu LD_LIBRARY_PATH hinzugefügt.

  • EBS-Volumetyp: gp3

  • AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):

    • OSS Nvidia-Treiber:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • Eigener Nvidia-Treiber:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):

    • OSS Nvidia-Treiber:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Eigener Nvidia-Treiber:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Hinweise

NVIDIA-Container-Toolkit 1.17.4

In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.

EFA-Updates von 1.37 auf 1.38 (Veröffentlichung am 04.02.2025)

EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.

Unterstützungspolitik

Diese AMIs Komponenten dieses AMI, wie CUDA-Versionen, können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container oder zur Reduzierung der AMI-Größe in einer future Version ohne vorherige Ankündigung entfernt und geändert werden. Wir entfernen CUDA-Versionen, AMIs wenn sie nicht von einer unterstützten Framework-Version verwendet werden.

EC2 Instanzen mit mehreren Netzwerkkarten
  • Viele Instance-Typen, die EFA unterstützen, verfügen auch über mehrere Netzwerkkarten.

  • DeviceIndex ist für jede Netzwerkkarte eindeutig und muss eine nicht negative Ganzzahl sein, die unter dem Grenzwert von ENIs per NetworkCard liegt. Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind.

    • Erstellen Sie für die primäre Netzwerkschnittstelle (Netzwerkkartenindex 0, Geräteindex 0) eine EFA-Schnittstelle (EFA mit ENA). Sie können eine Nur-EFA-Netzwerkschnittstelle nicht als primäre Netzwerkschnittstelle verwenden.

    • Verwenden Sie für jede weitere Netzwerkschnittstelle den nächsten ungenutzten Netzwerkkartenindex, Geräteindex 1, und entweder eine EFA (EFA mit ENA) oder eine reine EFA-Netzwerkschnittstelle, je nach Ihrem Anwendungsfall, z. B. den ENA-Bandbreitenanforderungen oder dem IP-Adressraum. Anwendungsfälle finden Sie beispielsweise unter EFA-Konfiguration für P5-Instances.

    • Weitere Informationen finden Sie im EFA-Leitfaden hier.

P5/P5e-Instanzen
  • P5- und P5e-Instances enthalten 32 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en-Instanzen
  • P5en enthalten 16 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Die Kernel-Version wird mit dem folgenden Befehl gepinnt:

    sudo yum versionlock kernel*
  • Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:

    sudo yum versionlock delete kernel* sudo yum update -y
  • Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.

Veröffentlichungsdatum: 2025-04-22

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 69.3

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 67.0

Aktualisiert

Veröffentlichungsdatum: 2025-02-17

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.5

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.3

Aktualisiert

Entfernt

Veröffentlichungsdatum: 2025-02-04

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.4

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.1

Aktualisiert

  • Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert

Veröffentlichungsdatum: 2025-01-17

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.3

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.0

Aktualisiert

Veröffentlichungsdatum: 2025-01-06

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.2

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.9

Aktualisiert

  • EFA wurde von Version 1.34.0 auf 1.37.0 aktualisiert

  • AWS OFI NCCL wurde von Version 1.11.0 auf 1.13.0 aktualisiert

Veröffentlichungsdatum: 2024-12-09

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.1

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.8

Aktualisiert

  • Das Nvidia Container Toolkit wurde von Version 1.17.0 auf 1.17.3 aktualisiert

Veröffentlichungsdatum: 2024-11-09

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.9

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.6

Aktualisiert

Datum der Veröffentlichung: 22.10.2024

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.7

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.4

Aktualisiert

Veröffentlichungsdatum: 2024-10-03

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI-Version (Amazon Linux 2)

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.2

Aktualisiert

Veröffentlichungsdatum: 2024-08-27

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.0

Aktualisiert

  • Der Nvidia-Treiber und der Fabric Manager wurden von Version 535.183.01 auf 550.90.07 aktualisiert

  • Die EFA-Version wurde von 1.32.0 auf 1.34.0 aktualisiert

  • NCCL wurde für alle CUDA-Versionen auf die neueste Version 2.22.3 aktualisiert

    • CUDA 12.1, 12.2 wurde von 2.18.5+ 2 aktualisiert CUDA12

    • CUDA 12.3 wurde von 2.21.5+ aktualisiert. CUDA12

Hinzugefügt

  • CUDA-Toolkit-Version 12.4 wurde im Verzeichnis/-12.4 hinzugefügt usr/local/cuda

  • Unterstützung für P5e-Instanzen hinzugefügt. EC2

Entfernt

  • Der CUDA Toolkit-Stack der Version 11.8 wurde entfernt, der im Verzeichnis/-11.8 vorhanden ist usr/local/cuda

Veröffentlichungsdatum: 2024-08-19

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 66.3

Hinzugefügt

  • Unterstützung für EC2 G6e-Instances hinzugefügt.

Veröffentlichungsdatum: 2024-06-06

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 65.4

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.9

Aktualisiert

  • Die Nvidia-Treiberversion wurde von 535.161.08 auf 535.183.01 aktualisiert

Datum der Veröffentlichung: 2024-05-02

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 64.7

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.2

Aktualisiert

  • Die EFA-Version wurde von Version 1.30 auf Version 1.32 aktualisiert

  • Das AWS OFI NCCL-Plugin wurde von Version 1.7.4 auf Version 1.9.1 aktualisiert

  • Das Nvidia-Container-Toolkit wurde von Version 1.13.5 auf Version 1.15.0 aktualisiert

Hinzugefügt

Entfernt

  • CUDA11.7, CUDA12 .0-Stapel entfernt, die bei/-12.0 vorhanden waren usr/local/cuda-11.7 and /usr/local/cuda

  • Das nvidia-docker2-Paket und sein Befehl nvidia-docker wurden als Teil des Nvidia-Container-Toolkit-Updates von 1.13.5 auf 1.15.0 entfernt, das NICHT die Pakete und nvidia-docker2 enthält. nvidia-container-runtime

Veröffentlichungsdatum: 2024-04-04

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 64.0

Hinzugefügt

  • Für den OSS-Nvidia-Treiber wurde DLAMIs Unterstützung für G6- und EC2 Gr6-Instances hinzugefügt

Veröffentlichungsdatum: 2024-03-29

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 62.3

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.2

Aktualisiert

  • Der Nvidia-Treiber wurde sowohl im proprietären als auch im OSS-Nvidia-Treiber von 535.104.12 auf 535.161.08 aktualisiert. DLAMIs

  • Die neuen unterstützten Instanzen für jedes DLAMI lauten wie folgt:

    • Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn

    • Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, P4d, P4de, P5.

Entfernt

  • Die Unterstützung für G4dn-, G5- und EC2 G3.16x-Instanzen wurde aus dem proprietären Nvidia-Treiber DLAMI entfernt.

Datum der Veröffentlichung: 20.03.2024

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 63.1

Hinzugefügt

  • awscliv2 wurde im AMI als//usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsauf dem OSS Nvidia Driver AMI hinzugefügt

Datum der Veröffentlichung: 2024-03-13

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 63.0

Aktualisiert

  • Aktualisierter OSS Nvidia-Treiber DLAMI mit G4dn- und G5-Unterstützung, basierend darauf sieht die aktuelle Unterstützung wie folgt aus:

    • Das proprietäre Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) unterstützt P3, P3dn, G3, G4dn, G5.

    • Das Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) unterstützt G4dn, G5, P4, P5.

  • DLAMIs Es wird empfohlen, die OSS-Nvidia-Treiber für G4dn, G5, P4, P5 zu verwenden.

Veröffentlichungsdatum: 2024-02-13

AMI-Namen
  • Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 62.1

  • Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 62.1

Aktualisiert

  • Der OSS Nvidia-Treiber wurde von 535.129.03 auf 535.154.05 aktualisiert

  • EFA wurde von 1.29.0 auf 1.30.0 aktualisiert

  • AWS OFI NCCL wurde von 1.7.3-aws auf 1.7.4-aws aktualisiert

Datum der Veröffentlichung: 2024-02-01

AMI-Name: Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 62.0

Sicherheit

  • Die Runc-Paketversion wurde aktualisiert, um den Patch für CVE-2024-21626 zu verwenden.

Version 6.1.4

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 61.4

Aktualisiert

  • Der OSS-Nvidia-Treiber wurde von 535.104.12 auf 535.129.03 aktualisiert

Version 61.0

AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 61.4

Aktualisiert

  • EFA wurde von 1.26.1 auf 1.29.0 aktualisiert

  • GDRCopy aktualisiert von 2.3 auf 2.4

Hinzugefügt

  • AWS Deep Learning AMI (DLAMI) ist in zwei separate Gruppen aufgeteilt:

    • DLAMI, das den proprietären Treiber von Nvidia verwendet (zur Unterstützung von P3, P3dn, G3, G5, G4dn).

    • DLAMI, das den Nvidia OSS-Treiber verwendet, um EFA zu aktivieren (zur Unterstützung von P4, P5).

  • Weitere Informationen zu DLAMI Split finden Sie in der öffentlichen Ankündigung.

  • AWS CLI Abfragen finden Sie unter dem Aufzählungspunkt Abfrage AMI-ID mit AWSCLI (Beispiel Region ist us-east-1)

Version 60.6

AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.6

Aktualisiert

  • AWS Das OFI NCCL Plugin wurde von Version 1.7.2 auf Version 1.7.3 aktualisiert

  • Die CUDA 12.0-12.1-Verzeichnisse wurden mit der NCCL-Version 2.18.5 aktualisiert

  • CUDA12.1 wurde als Standard-CUDA-Version aktualisiert

    • LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Für Kunden, die zu einer anderen CUDA-Version wechseln möchten, definieren Sie bitte die Variablen LD_LIBRARY_PATH und PATH entsprechend.

Hinzugefügt

  • Kernel Live Patching ist jetzt aktiviert. Live-Patching ermöglicht es Kunden, Sicherheitslücken und kritische Bug-Patches auf einen laufenden Linux-Kernel anzuwenden, ohne Neustarts oder Unterbrechungen laufender Anwendungen. Bitte beachten Sie, dass die Live-Patching-Unterstützung für Kernel 5.10.192 am 30.11.23 endet.

Version 6.0.5

AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.5

Aktualisiert

  • Der NVIDIA-Treiber wurde von 535.54.03 auf 535.104.12 aktualisiert

    Dieser neueste Treiber behebt wichtige NVML-ABI-Änderungen im 535.54.03-Treiber sowie die Treiberregression im Treiber 535.86.10, die CUDA-Toolkits auf P5-Instances betraf. Einzelheiten zu den Problembehebungen finden Sie in den folgenden NVIDIA-Versionshinweisen:

    • 4235941 — Behebung einer wichtigen Änderung in NVML ABI

    • 4228552 — CUDA Toolkit-Fehler behoben

  • CUDA 12.2-Verzeichnisse mit NCCL 2.18.5 aktualisiert

  • EFA wurde von 1.24.1 auf die neueste Version 1.26.1 aktualisiert

Hinzugefügt

  • 2.2 bei//-12.2 hinzugefügt CUDA12 usr/local/cuda

Entfernt

  • Die Unterstützung für CUDA 11.5 und CUDA 11.6 wurde entfernt

Version 60.2

AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.2

Aktualisiert

  • aws-ofi-ncclDas Plugin wurde von v1.7.1 auf v1.7.2 aktualisiert

Version 60.0

Veröffentlichungsdatum: 2023-08-11

Hinzugefügt

  • Dieses AMI bietet jetzt Unterstützung für Trainingsfunktionen mit mehreren Knoten auf P5 und allen zuvor unterstützten Instances EC2

  • Für EC2 P5-Instances wird die Verwendung von NCCL 2.18 empfohlen. Es wurde zu Version 2.0 und .1 hinzugefügt. CUDA12 CUDA12

Entfernt

  • Die Unterstützung für .5 wurde entfernt. CUDA11

Version 5.9.2

Veröffentlichungsdatum: 2023-08-08

Entfernt

  • CUDA-11.3 und CUDA-11.4 wurden entfernt

Version 59.1

Veröffentlichungsdatum: 2023-08-03

Aktualisiert

  • Das AWS OFI NCCL-Plugin wurde auf v1.7.1 aktualisiert

  • Made CUDA11 .8 als Standard, da PyTorch 2.0 11.8 unterstützt und für EC2 P5-Instances wird empfohlen, >= .8 zu verwenden. CUDA11

    • LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Für jede andere Cuda-Version definieren Sie LD_LIBRARY_PATH bitte entsprechend.

Fixed

  • Das in der früheren Version 2023-07-19 erwähnte Problem beim Laden von Nvidia Fabric Manager (FM) -Paketen wurde behoben.

Version 58.9

Veröffentlichungsdatum: 2023-07-19

Aktualisiert

  • Der Nvidia-Treiber wurde von 525.85.12 auf 535.54.03 aktualisiert

  • Das EFA-Installationsprogramm wurde von 1.22.1 auf 1.24.1 aktualisiert

Hinzugefügt

  • Es wurden C-State-Änderungen hinzugefügt, um den Leerlaufstatus des Prozessors zu deaktivieren, indem der maximale C-Status auf C1 gesetzt wurde. Diese Änderung wird vorgenommen, indem `intel_idle.max_cstate=1 processor.max_cstate=1` in den Linux-Boot-Argumenten in der Datei/gesetzt wird etc/default/grub

  • AWS EC2 Unterstützung für P5-Instanzen:

    • EC2 P5-Instanzunterstützung für Workflows hinzugefügt, die einen einzelnen Knoten/eine einzelne Instanz verwenden. Unterstützung mehrerer Knoten (z. B. für Schulungen mit mehreren Knoten) mithilfe von EFA (Elastic Fabric Adapter) und dem AWS OFI NCCL-Plugin wird in einer kommenden Version hinzugefügt.

    • Bitte verwenden Sie CUDA>=11.8 für eine optimale Leistung.

    • Bekanntes Problem: Das Laden des Nvidia Fabric Manager (FM) -Pakets auf P5 dauert einige Zeit. Kunden müssen nach dem Start der P5-Instance 2-3 Minuten warten, bis FM geladen wird. Um zu überprüfen, ob FM gestartet wurde, führen Sie bitte den Befehl sudo systemctl is-active nvidia-fabricmanager aus. Er sollte wieder aktiv sein, bevor Sie einen Workflow starten. Dies wird in der kommenden Version behoben.

Version 58.0

Veröffentlichungsdatum: 2023-05-19

Entfernt

  • Der Stapel CUDA11 .0-11.2 wurde gemäß der im oberen Abschnitt dieses Dokuments genannten Support-Richtlinie entfernt.

Version 5.7.3

Veröffentlichungsdatum: 2023-04-06

Hinzugefügt

  • Nvidia 2.3 hinzugefügt GDRCopy

Version 56.8

Veröffentlichungsdatum: 2023-03-09

Aktualisiert

  • Der NVIDIA-Treiber wurde von 515.65.01 auf 525.85.12 aktualisiert

Hinzugefügt

  • usr/local/cudacuda-11.8 bei/-11.8/ hinzugefügt

Ausführung 56.0

Veröffentlichungsdatum: 2022-06

Aktualisiert

  • Die EFA-Version wurde von 1.17.2 auf 1.19.0 aktualisiert

Version 55.0

Veröffentlichungsdatum: 04.11.2022

Aktualisiert

  • Der NVIDIA-Treiber wurde von 510.47.03 auf 515.65.01 aktualisiert

Hinzugefügt

  • usr/local/cudacuda-11.7 unter/-11.7/ hinzugefügt

Ausführung 54.0

Veröffentlichungsdatum: 2015-09-15

Aktualisiert

  • Die EFA-Version wurde von 1.16.0 auf 1.17.2 aktualisiert

Version 53.3

Veröffentlichungsdatum: 25.05.2022

Aktualisiert

  • Auf Version aws-efa-installer 1.15.2 aktualisiert

  • Auf Version 1.3.0-aws aktualisiert aws-ofi-nccl, die die Topologie für p4de.24xlarge enthält.

Hinzugefügt

  • Diese Version bietet Unterstützung für p4de.24xlarge-Instances. EC2

Version 53.0

Veröffentlichungsdatum: 28.04.2022

Hinzugefügt

  • CloudWatch Amazon-Agent hinzugefügt

  • Es wurden drei systemd-Dienste hinzugefügt, die vordefinierte JSON-Dateien verwenden, die unter Pfadopt/aws/amazon-cloudwatch-agent/etc//verfügbar sind, um GPU-Metriken mithilfe des Linux-Benutzers cwagent zu konfigurieren

    • dlami-cloudwatch-agent@minimal

      • Befehle zum Aktivieren von GPU-Metriken:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • Es erstellt diese Metriken:utilization_gpu, utilization_memory

    • dlami-cloudwatch-agent@partial

      • Befehle zum Aktivieren von GPU-Metriken:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • Es erstellt diese Metriken:utilization_gpu,utilization_memory,memory_total,memory_used, memory_free

    • dlami-cloudwatch-agent@all

      • Befehle zum Aktivieren von GPU-Metriken:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • Es erstellt alle verfügbaren GPU-Metriken

Version 52.0

Veröffentlichungsdatum: 08.03.2022

Aktualisiert

  • Kernel-Version auf 5.10 aktualisiert

Version 51.0

Veröffentlichungsdatum: 04.03.2022

Aktualisiert

  • Der Nvidia-Treiber wurde auf 510.47.03 aktualisiert

Version 50.0

Veröffentlichungsdatum: 17.02.2022

Aktualisiert

  • Gesperrt aws-neuron-dkms und tensorflow-model-server-neuron sobald sie auf neuere Versionen aktualisiert werden, die von den in AMI vorhandenen Neuron-Paketen nicht unterstützt werden

    • Befehle, falls der Kunde das Paket entsperren möchte, um es auf die neueste Version zu aktualisieren: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron

Version 49.0

Veröffentlichungsdatum: 13.01.2022

Hinzugefügt

  • CUDA112.2 mit den folgenden Komponenten hinzugefügt:

    • cuDNN v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

Aktualisiert

  • Symlink Pip wurde auf Pip3 aktualisiert

Veraltungen

  • Veraltete Unterstützung für den Instanztyp P2

  • Python2.7 wurde verworfen und verwandte Python2.7-Pakete wie „python-dev“, „python-pip“ und „python-tk“ entfernt

Version 48.0

Veröffentlichungsdatum: 2021-12-27

Aktualisiert

  • org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar wurde aus den Cuda-Versionen entfernt, da es nicht verwendet wird und kein Risiko für Benutzer mit den Log4j-Dateien besteht. Weitere Informationen finden Sie unter https://nvidia.custhelp.com/app/answers/detail/a_id/5294.

Version 47.0

Veröffentlichungsdatum: 2021-11-24

Aktualisiert

  • EFA wurde auf 1.14.1 aktualisiert

Version 46.0

Veröffentlichungsdatum: 2021-11-12

Aktualisiert

  • Neuron-Pakete wurden von =1.5 aktualisiert. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, aws-neuron-tools =1.6.* bis =2.2. aws-neuron-dkms *, =1,6. aws-neuron-runtime-base *, aws-neuron-tools =2,0*.

  • Das Neuron-Paket aws-neuron-runtime =1.5.* wurde entfernt, da bei Neuron keine Runtime mehr als Daemon läuft und Runtime jetzt als Bibliothek in das Framework integriert ist.

Version 45.0

Veröffentlichungsdatum: 2021-10-21

Hinzugefügt

  • Sicherheitsscan-Berichte im JSON-Format sind unter//verfügbar. opt/aws/dlami/info

Version 44.0

Veröffentlichungsdatum: 2021-10-08

der Änderung

  • Für jeden Instance-Start mit DLAMI wird das Tag "aws-dlami-autogenerated-tag-do-not-delete" hinzugefügt, das es ermöglicht, Instance-Typ, Instance-ID, DLAMI-Typ und Betriebssysteminformationen AWS zu sammeln. Es werden keine Informationen zu den in der DLAMI verwendeten Befehlen gesammelt oder gespeichert. Es werden keine weiteren Informationen über das DLAMI gesammelt oder gespeichert. Um die Nutzungsverfolgung für Ihr DLAMI zu deaktivieren, fügen Sie Ihrer EC2 Amazon-Instance beim Start ein Tag hinzu. Das Tag sollte den Schlüssel OPT_OUT_TRACKING verwenden, wobei der zugehörige Wert auf true gesetzt ist. Weitere Informationen finden Sie unter Taggen Sie Ihre EC2 Amazon-Ressourcen.

Sicherheit

  • Docker-Version auf Docker-20.10.7-3 aktualisiert

Version 43.0

Veröffentlichungsdatum: 2021-08-24

der Änderung

  • „Notebook“ auf Version „6.4.1" aktualisiert.

Version 4.2.0

Veröffentlichungsdatum: 2021-07-23

der Änderung

  • Die Version des Nvidia-Treibers und des Fabric Managers wurde auf 450.142.00 aktualisiert.

Version 41.0

Veröffentlichungsdatum: 2021-06-24

der Änderung

  • Aktualisierte Neuron-Pakete gemäß Neuron Release v1.14.0

Version 40.0

Veröffentlichungsdatum: 2021-06-10

der Änderung

  • Die awscli-Version wurde auf 1.19.89 aktualisiert

Version 39.0

Veröffentlichungsdatum: 2021-05-27

Sicherheit

  • Die anfälligen CUDA-10.0-Komponenten (Visual Profiler, Nsight EE und JRE) wurden aus der CUDA-10.0-Installation (/-10.0) entfernt. usr/local/cuda

Version 38.0

Veröffentlichungsdatum: 2021-05-25

der Änderung

  • Runc auf den neuesten Stand gebracht

Version 37.0

Veröffentlichungsdatum: 2021-04-23

der Änderung

  • Die Version des Nvidia Tesla-Treibers und des Fabric Managers wurde auf 450.119.03 aktualisiert.

Version 36.1

Veröffentlichungsdatum: 2021-04-21

Fixed

  • Es wurde ein Problem behoben, das die Startgeschwindigkeit der Instance verlangsamte.

Version 36.0

Veröffentlichungsdatum: 2021-03-24

Hinzugefügt

  • tensorflow-model-server-neuronZur Unterstützung der Bereitstellung von Neuronenmodellen hinzugefügt.

der Änderung

  • Jupyterlab wurde auf Version 3.0.8 für Python3 aktualisiert.

Fixed

  • Die alte Installation von OpenMPI in/usr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpiist verfügbar.

  • Entfernt doppelte und nicht existierende Definitionen von Shell-Umgebungen, die die Shell-Umgebungsvariablen wie PATH und LD_LIBRARY_PATH verschmutzt haben. Als Ergebnis wurden ~/.dlami und/.sh hinzugefügt. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami

Sicherheit

Version 35.0

Veröffentlichungsdatum: 2021-03-08

Hinzugefügt

  • TensorRT CUDA 11.0-Installation hinzugefügt

Version 34.3

Veröffentlichungsdatum: 25.02.2021

Fixed

  • Es wurde ein Tippfehler in der MOTD (Message of the Day) behoben, durch den Version 34.1 fälschlicherweise angezeigt wurde.

Version 34.2

Veröffentlichungsdatum: 2021-02-24

Sicherheit

  • Python2 und Python3 für CVE-2021-3177 gepatcht

Bekanntes Problem

  • Es gibt einen Tippfehler in der MOTD (Nachricht des Tages), durch den Version 34.1 falsch angezeigt wurde. Wir werden Version 34.3 veröffentlichen, um dieses Problem zu beheben.

Version 34.0

Veröffentlichungsdatum: 2021-02-09

der Änderung

  • Pip wurde für Python2 an Version 20.3.4 angeheftet. Dies ist die letzte Pip-Version, die Python2 und Python3.5 unterstützt.

Version 33.0

Veröffentlichungsdatum: 2021-01-19

der Änderung

  • Die cuDNN-Version wurde auf Version 8.0.5.39 in Version 2.0 und 8.1 aktualisiert. CUDA11 CUDA11

Version 3.2.0

Veröffentlichungsdatum: 2020-12-01

Hinzugefügt

  • CUDA11.1 mit NCCL 2.7.8, cuDNN 8.0.4.30 für Deep Learning AMI (Amazon Linux 2), Deep Learning AMI (Ubuntu 16.04), Deep Learning AMI (Ubuntu 18.04), Deep Learning Base AMI (Ubuntu 16.04), Deep Learning Base AMI (Ubuntu 18.04), Deep Learning Base AMI (Amazon Linux 2) hinzugefügt.

Version 3.1.0

Veröffentlichungsdatum: 2020-11-02

der Änderung

  • Das EFA-Installationsprogramm wurde auf Version 1.10.0 aktualisiert.

  • Die cuDNN-Version wurde auf v8.0.4.30 für CUDA 11.0 aktualisiert.

  • AWS Neuron wurde auf Version 1.1 aktualisiert

Version 30.0

Veröffentlichungsdatum: 2020-10-08

der Änderung

  • Die NVIDIA-Treiber- und Fabric Manager-Versionen wurden auf 450.80.02 aktualisiert

  • NCCL wurde für 2.0 auf 2.7.8 in aktualisiert CUDA11

Fixed

  • Es wurde ein Problem behoben, bei dem Yum ein Python-Paket verwaltete, das von pipmanagten Installationen überschrieben wurde. Die ausführbaren Dateien pip, pip3 und pip3.7 wurden aus dem /-Teil dieses Fixes verschoben. usr/binto /usr/local/binas

Version 29.0

Veröffentlichungsdatum: 2020-09-11

der Änderung

  • Der NVIDIA-Treiber wurde von Version 450.51.05 auf 450.51.06 aktualisiert

  • NVIDIA Fabric Manager Version 450.51.06 wurde hinzugefügt

  • EFA wurde auf 1.9.4 aktualisiert

Version 28.0

Veröffentlichungsdatum: 2020-08-19

der Änderung

  • CUDA 11.0-Stack mit NCCL 2.7.6 und cuDNN 8.0.2.39 hinzugefügt

Version 27.0

Veröffentlichungsdatum: 2020-08-07

der Änderung

  • EFA wurde von Version 1.7.1 auf 1.9.3 aktualisiert unter/opt/amazon/efa

  • Das Upgrade von Open MPI von Version 4.0.3 auf 4.0.4 in '/' usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun ist immer noch auf Version 4.0.3

  • Der NVIDIA-Treiber wurde von 440.33.01 auf 450.51.05 aktualisiert

  • Die NCCL-Version wurde in 0.2 von 2.6.4 auf 2.7.6 aktualisiert CUDA1

Version 26.0

Veröffentlichungsdatum: 2020-08-03

der Änderung

Fixed

  • Es wurde ein Fehler behoben, bei dem die gemeinsam genutzte Objektdatei: libopencv_dnn.so.4.2 nicht geöffnet werden konnte.

Version 25.0

Veröffentlichungsdatum: 2020-07-19

der Änderung

  • Die EFA-Version wurde auf 1.7.1 aktualisiert, um NCCL 2.6.4 zu unterstützen

  • Die NCCL-Version wurde für CUDA 10.2 auf 2.6.4 aktualisiert

  • Die awscli-Version wurde von 1.16.76 auf 1.18.80 aktualisiert

  • Die boto3-Version wurde von 1.9.72 auf 1.14.3 aktualisiert

Version 24.1

Veröffentlichungsdatum: 2020-06-14

der Änderung

  • Docker-Version auf 19.03.6 aktualisiert

Version 24.0

Veröffentlichungsdatum: 2020-05-20

der Änderung

  • Docker-Version auf 19.03.6 aktualisiert

Version 23.0

Veröffentlichungsdatum: 2020-04-29

der Änderung

  • Aktualisierte Python-Paketversionen

Version 22.0

Veröffentlichungsdatum: 2020-03-04

der Änderung

  • CUDA 10.2-Stack hinzugefügt

  • CUDA 10.0 und 10.1 für cuDNN- und NCCL-Version aktualisiert