Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Deep-Learning-AMI (Amazon Linux 2)
Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.
AMI-Namensformat
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2), Version $ {XX.X}
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version $ {XX.X}
Unterstützte Instanzen EC2
Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5
Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn
Das AMI umfasst Folgendes:
Unterstützter AWS Service: Amazon EC2
Betriebssystem: Amazon Linux 2
Rechenarchitektur: x86
Framework- und Python-Versionen für Conda-Umgebungen:
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2):
python3: Python 3.10
tensorflow2_p310:2.16, Python 3.10 TensorFlow
pytorch_p310:2.2, Python 3.10 PyTorch
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2):
python3: Python 3.10
tensorflow2_p310:2.16, Python 3.10 TensorFlow
pytorch_p310:2.2, Python 3.10 PyTorch
NVIDIA-Treiber:
OS Nvidia-Treiber: 550.163.01
Proprietärer Nvidia-Treiber: 550.163.01
NVIDIA 1.1-12.4-Stapel: CUDA12
CUDA-, NCCL- und cuDDN-Installationspfad:/-xx.x/ usr/local/cuda
-
Standard-CUDA: 12.1
PATH//usr/local/cudazeigt auf 1. CUDA12
Die folgenden Umgebungsvariablen wurden aktualisiert:
LD_LIBRARY_PATH soll/haben usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH soll//haben usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include
Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
Kompilierte NCCL-Version für CUDA 12.1-12.4:2.22.3
Standort der NCCL-Tests:
all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Um NCCL-Tests ausführen zu können, muss LD_LIBRARY_PATH mit den folgenden Aktualisierungen bestanden werden.
Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
EFA-Installationsprogramm: 1.38.0
GDRCopy: 2,4
AWS OFI NCCL: 1.13.2
Standort des Systems:/usr/local/cuda-xx.x/efa
Dies wird hinzugefügt, um NCCL-Tests auszuführen, die sich unter/-cuda-xx.x/ befinden usr/local/cuda-xx.x/efa/test
Außerdem enthält PyTorch das Paket ein dynamisch verlinktes AWS OFI-NCCL-Plugin als Conda-Paketpaket und verwendet dieses aws-ofi-nccl-dlc Paket anstelle von System-OFI-NCCL. PyTorch AWS
Ort der NCCL-Tests:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
AWS CLI v2 bei//2 und v1 bei/usr/local/bin/aws AWS CLI usr/local/bin/aws
EBS-Volumetyp: gp3
AMI-ID mit SSM-Parameter abfragen (Beispielregion ist us-east-1):
OSS Nvidia-Treiber:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
Eigener Nvidia-Treiber:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
AMI-ID abfragen mit AWSCLI (Beispielregion ist us-east-1):
OSS Nvidia-Treiber:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Eigener Nvidia-Treiber:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Hinweise
EFA-Updates von 1.37 auf 1.38 (Veröffentlichung am 05.02.2025)
-
EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das jetzt in/-ofi-nccl/ zu finden ist. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.
Entfernung der Neuron Conda-Umgebung
-
Der proprietäre Nvidia-Treiber von Deep Learning, der nach dem 18. Juli 2024 AMIs veröffentlicht wurde, wird ohne Neuron-Conda-Umgebungen für und ausgeliefert. PyTorch TensorFlow Bitte verwenden Sie stattdessen das DLAMIs Neuron in den DLAMI-Versionshinweisen, um neuronale Umgebungen zu nutzen.
Entfernen von Audit-Paketen
-
DLAMIs, die zwischen dem 26. März 2024 (2024-03-26) und dem 12. April 2024 (2024-04-12) veröffentlicht wurden, wurden ohne das Auditpaket ausgeliefert. Wenn Sie dieses spezielle Paket für Ihre Protokollierungs- und Überwachungsanforderungen benötigen, migrieren Sie Ihre Workflows bitte auf die neueste DLAMI-Version, um sie mit dem installierten Audit-Paket nutzen zu können.
Horovod
-
Horovod wurde aus den aktuellen Conda-Umgebungen pytorch_p310 und tensorflow2_p310 auf dem DLAMI entfernt. Kunden werden in der Lage sein, die Horovod-Bibliotheken gemäß den Horovod-Richtlinien zu installieren und sie auf ihren verteilten Schulungsaufträgen zu installieren.
DLAMIs
Datum der Veröffentlichung: 2025-04-22
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 81.2
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 81.2
Aktualisiert
Veröffentlichungsdatum: 2025-02-17
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 80.6
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 80.4
Aktualisiert
-
Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert
In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial „Wenn Sie eine CUDA-Kompatibilitätsebene verwenden“ hier beschrieben - -gpu-drivers.html# https://docs.aws.amazon.com/sagemaker/ latest/dg/inference collapsible-cuda-compat
Entfernt
Veröffentlichungsdatum: 05.02.2025
AMI-Namen
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 80.2
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 80.4
Aktualisiert
-
Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert
EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.
Datum der Veröffentlichung: 15.01.2025
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 80.3
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 80.1
Aktualisiert
Veröffentlichungsdatum: 2024-12-09
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 80.1
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 79.9
Aktualisiert
Das Nvidia Container Toolkit wurde von Version 1.17.0 auf 1.17.3 aktualisiert
Veröffentlichungsdatum: 2024-11-11
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 79.9
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 79.7
Aktualisiert
Datum der Veröffentlichung: 22.10.2024
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 79.6
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 79.6
Aktualisiert
Veröffentlichungsdatum: 2024-10-03
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 79.3
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 79.3
Aktualisiert
Veröffentlichungsdatum: 2024-07-18
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 78.6
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 78.7
Aktualisiert
Die Conda-Umgebungen aws_neuron_pytorch_p38 und aws_neuron_tensorflow_p38 wurden aus dem proprietären Nvidia-Treiber-AMI von Deep Learning entfernt.
Die Unterstützung der Inf1-Instance-Familie wurde aus dem proprietären Nvidia-Treiber-AMI von Deep Learning entfernt.
Datum der Veröffentlichung: 2024-06-06
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 78.5
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 78.5
Aktualisiert
Die Nvidia-Treiberversion wurde von 535.161.08 auf 535.183.01 aktualisiert
Datum der Veröffentlichung: 2024-05-17
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 78.1
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 78.1
Aktualisiert
Torchserve wurde in der Umgebung pytorch_p310
von v0.8.2 auf v0.11.0 aktualisiert.
Veröffentlichungsdatum: 2024-05-07
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 78.0
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 78.0
Aktualisiert
TensorFlow Version wurde in der tensorflow2_p310-Umgebung von 2.15 auf 2.16 aktualisiert.
Die EFA-Version wurde von Version 1.30 auf Version 1.32 aktualisiert
Das AWS OFI NCCL-Plugin wurde von Version 1.7.4 auf Version 1.9.1 aktualisiert
-
Das Nvidia-Container-Toolkit wurde von Version 1.13.5 auf Version 1.15.0 aktualisiert
HINWEIS: Version 1.15.0 enthält NICHT die Pakete und nvidia-docker2. nvidia-container-runtime Es wird empfohlen, nvidia-container-toolkit Pakete direkt zu verwenden, indem Sie den Dokumenten zum Nvidia-Container-Toolkit folgen.
Hinzugefügt
CUDA123.3-Stack mit CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7 hinzugefügt
Entfernt
Die Stapel .7, CUDA11 .0 wurden entfernt, die bei/-12.0 vorhanden waren CUDA12 usr/local/cuda-11.7 and /usr/local/cuda
Das nvidia-docker2-Paket und sein Befehl nvidia-docker wurden als Teil des Nvidia-Container-Toolkit-Updates von 1.13.5 auf 1.15.0 entfernt, das NICHT die Pakete und nvidia-docker2 enthält.
nvidia-container-runtime
Veröffentlichungsdatum: 2024-04-04
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 77.0
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 77.0
Aktualisiert
PyTorch Version wurde in der Umgebung pytorch_p310 von 2.1 auf 2.2 aktualisiert.
Für den OSS-Nvidia-Treiber wurde Unterstützung für DLAMIs G6- und Gr6-Instanzen hinzugefügt. EC2 Weitere Informationen finden Sie auf der Seite zur EC2 Instanzauswahl.
Veröffentlichungsdatum: 2024-03-29
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 76.8
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 76.9
Aktualisiert
Der Nvidia-Treiber wurde sowohl im proprietären als auch im OSS-Nvidia-Treiber von 535.104.12 auf 535.161.08 aktualisiert. DLAMIs
-
Die neuen unterstützten Instanzen für jedes DLAMI lauten wie folgt:
Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn, Inf1
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, P4d, P4de.
Entfernt
Die Unterstützung für G4dn-, G5- und EC2 G3.16x-Instanzen wurde aus dem proprietären Nvidia-Treiber DLAMI entfernt.
Version 76.8
Datum der Veröffentlichung: 2024-03-20
AMI-Namen
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 76.8
Hinzugefügt
awscliv2 wurde dem AMI als//usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsauf dem proprietären Nvidia-Treiber-AMI hinzugefügt
Version 76.7
Datum der Veröffentlichung: 2024-03-20
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 76.7
Hinzugefügt
awscliv2 wurde im AMI als//usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsauf dem OSS Nvidia Driver AMI hinzugefügt
-
Aktualisierter OSS Nvidia-Treiber DLAMI mit G4dn- und G5-Unterstützung, basierend darauf sieht die aktuelle Unterstützung wie folgt aus:
Das proprietäre Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) unterstützt P3, P3dn, G3, G5, G4dn.
Das Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) unterstützt G4dn, G5, P4, P5.
DLAMIs Es wird empfohlen, die OSS-Nvidia-Treiber für G4dn, G5, P4, P5 zu verwenden.
Version 76.3
Datum der Veröffentlichung: 2024-02-14
Aktualisiert
TensorFlow Von 2.13.0 auf 2.15.0 aktualisiert
EFA wurde von 1.29.0 auf 1.30.0 aktualisiert
-OFI-NCCL wurde von 1.7.3-aws auf 1.7.4-aws aktualisiert AWS
Der Nvidia-Treiber wurde auf dem proprietären Deep Learning-Treiber-AMI auf 535.104.12 aktualisiert
Aktualisierter Nvidia-Treiber auf 535.154.05 auf Deep Learning OSS Nvidia Driver AMI
Version 76.2
Datum der Veröffentlichung: 2024-02-02
AMI-Namen
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 76.2
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 76.4
Sicherheit
Die Runc-Paketversion wurde aktualisiert, um den Patch für CVE-2024-21626
zu verwenden.
Version 7.6.1
Datum der Veröffentlichung: 2023-12-27
Aktualisiert
PyTorch Von 2.0.1 auf 2.1.0 aktualisiert
Version 75.1
Datum der Veröffentlichung: 2023-11-17
Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI
AMI-Namen
Deep Learning OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 75.1
Proprietäres Nvidia-Treiber-AMI für Deep Learning (Amazon Linux 2) Version 75.1
Hinzugefügt
-
AWS Deep Learning AMI (DLAMI) ist in zwei separate Gruppen aufgeteilt:
DLAMI, das den proprietären Treiber von Nvidia verwendet (zur Unterstützung von P3, P3dn, G3, G5, G4dn).
DLAMI, das den Nvidia OSS-Treiber verwendet, um EFA zu aktivieren (zur Unterstützung von P4, P5).
Weitere Informationen zu DLAMI Split finden Sie in der öffentlichen Ankündigung.
AWS CLI-Abfragen für oben finden Sie in den Versionshinweisen
unter dem Aufzählungspunkt ABFRAGE AMI-ID mit AWSCLI (Beispielregion ist us-east-1)
Aktualisiert
EFA wurde von 1.26.1 auf 1.29.0 aktualisiert
GDRCopy aktualisiert von 2.3 auf 2.4
Version 74.4
Datum der Veröffentlichung: 2023-10-27
Aktualisiert
AWS Das OFI NCCL Plugin wurde von Version 1.7.2 auf Version 1.7.3 aktualisiert
Die CUDA 12.0-12.1-Verzeichnisse wurden mit der NCCL-Version 2.18.5 aktualisiert
-
CUDA12.1 wurde als Standard-CUDA-Version aktualisiert
LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Für Kunden, die zu einer anderen CUDA-Version wechseln möchten, definieren Sie bitte die Variablen LD_LIBRARY_PATH und PATH entsprechend.
Hinzugefügt
-
Kernel Live Patching ist jetzt aktiviert. Live-Patching ermöglicht es Kunden, Sicherheitslücken und kritische Bug-Patches auf einen laufenden Linux-Kernel anzuwenden, ohne Neustarts oder Unterbrechungen laufender Anwendungen.
Bitte beachten Sie, dass die Live-Patching-Unterstützung für Kernel 5.10.192 am 30.11.23 endet.
Version 74.0
Datum der Veröffentlichung: 2023-07-19
Aktualisiert
-
Von 2.12 auf 2.13 aktualisiert TensorFlow
Horovod wurde in dieser Version aus der Conda-Umgebung entfernt. Einzelheiten zur Installation von Horovod finden Sie im Hinweis.
Version 7.3.1
Datum der Veröffentlichung: 2023-06-12
Aktualisiert
Von 2.0.0 auf 2.0.1 aktualisiert PyTorch