Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Deep-Learning-Basis-AMI (Amazon Linux 2)
Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.
AMI-Namensformat
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version $ {XX.X}
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2), Version $ {XX.X}
Unterstützte Instanzen EC2
Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn
Das AMI umfasst Folgendes:
Unterstützter AWS Service: Amazon EC2
Betriebssystem: Amazon Linux 2
Rechenarchitektur: x86
Die neueste verfügbare Version ist für die folgenden Pakete installiert:
Linux-Kernel: 5.10
Docker
AWS CLI v2 bei/usr/local/bin/aws2 und AWS CLI v1 bei/usr/bin/aws
Nvidia-Container-Toolkit:
Versionsbefehl: -V nvidia-container-cli
NVIDIA-Docker2:
Versionsbefehl: nvidia-docker version
Python:/usr/bin/python3.7
NVIDIA-Treiber:
OS Nvidia-Treiber: 550.163.01
Proprietärer Nvidia-Treiber: 550.163.01
NVIDIA CUDA 12.1-12.4-Stapel:
Installationsverzeichnisse für CUDA, NCCL und cuDDN:/-xx.x/ usr/local/cuda
Standard-CUDA: 12.1
PATH//usr/local/cudazeigt auf CUDA 12.1
Die folgenden Umgebungsvariablen wurden aktualisiert:
LD_LIBRARY_PATH soll/haben usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH soll//haben usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
Kompilierte NCCL-Version: 2.22.3
Ort der NCCL-Tests:
all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Um NCCL-Tests ausführen zu können, muss LD_LIBRARY_PATH mit den folgenden Aktualisierungen bestanden werden.
Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
EFA-Installationsprogramm: 1.38.0
Nvidia: 2,4 GDRCopy
AWS OFI NCCL: 1.13.2
AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build
Installationspfad:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 wurde zu LD_LIBRARY_PATH hinzugefügt.
EBS-Volumetyp: gp3
AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output textEigener Nvidia-Treiber:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textEigener Nvidia-Treiber:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Hinweise
NVIDIA-Container-Toolkit 1.17.4
In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.
EFA-Updates von 1.37 auf 1.38 (Veröffentlichung am 04.02.2025)
EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.
Unterstützungspolitik
Diese AMIs Komponenten dieses AMI, wie CUDA-Versionen, können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container
EC2 Instanzen mit mehreren Netzwerkkarten
Viele Instance-Typen, die EFA unterstützen, verfügen auch über mehrere Netzwerkkarten.
DeviceIndex ist für jede Netzwerkkarte eindeutig und muss eine nicht negative Ganzzahl sein, die unter dem Grenzwert von ENIs per NetworkCard liegt. Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind.
Erstellen Sie für die primäre Netzwerkschnittstelle (Netzwerkkartenindex 0, Geräteindex 0) eine EFA-Schnittstelle (EFA mit ENA). Sie können eine Nur-EFA-Netzwerkschnittstelle nicht als primäre Netzwerkschnittstelle verwenden.
Verwenden Sie für jede weitere Netzwerkschnittstelle den nächsten ungenutzten Netzwerkkartenindex, Geräteindex 1, und entweder eine EFA (EFA mit ENA) oder eine reine EFA-Netzwerkschnittstelle, je nach Ihrem Anwendungsfall, z. B. den ENA-Bandbreitenanforderungen oder dem IP-Adressraum. Anwendungsfälle finden Sie beispielsweise unter EFA-Konfiguration für P5-Instances.
P5/P5e-Instanzen
P5- und P5e-Instances enthalten 32 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en-Instanzen
P5en enthalten 16 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Die Kernel-Version wird mit dem folgenden Befehl gepinnt:
sudo yum versionlock kernel*
Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
sudo yum versionlock delete kernel* sudo yum update -y
Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.
Veröffentlichungsdatum: 2025-04-22
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 69.3
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 67.0
Aktualisiert
Veröffentlichungsdatum: 2025-02-17
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.5
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.3
Aktualisiert
Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert. Weitere Informationen finden Sie auf der Seite mit den Versionshinweisen hier:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
Entfernt
Veröffentlichungsdatum: 2025-02-04
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.4
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.1
Aktualisiert
-
Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert
Veröffentlichungsdatum: 2025-01-17
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.3
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 66.0
Aktualisiert
Veröffentlichungsdatum: 2025-01-06
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.2
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.9
Aktualisiert
EFA wurde von Version 1.34.0 auf 1.37.0 aktualisiert
AWS OFI NCCL wurde von Version 1.11.0 auf 1.13.0 aktualisiert
Veröffentlichungsdatum: 2024-12-09
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 68.1
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.8
Aktualisiert
Das Nvidia Container Toolkit wurde von Version 1.17.0 auf 1.17.3 aktualisiert
Veröffentlichungsdatum: 2024-11-09
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.9
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.6
Aktualisiert
Datum der Veröffentlichung: 22.10.2024
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.7
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.4
Aktualisiert
Veröffentlichungsdatum: 2024-10-03
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI-Version (Amazon Linux 2)
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 65.2
Aktualisiert
Veröffentlichungsdatum: 2024-08-27
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 67.0
Aktualisiert
-
Der Nvidia-Treiber und der Fabric Manager wurden von Version 535.183.01 auf 550.90.07 aktualisiert
Aufgrund der Empfehlungen von Nvidia wurde die Anforderung einer Mehrbenutzer-Shell aus Fabric Manager entfernt
Weitere Informationen finden Sie hier unter Bekannte Probleme für den Tesla-Treiber 550.90.07
Die EFA-Version wurde von 1.32.0 auf 1.34.0 aktualisiert
-
NCCL wurde für alle CUDA-Versionen auf die neueste Version 2.22.3 aktualisiert
CUDA 12.1, 12.2 wurde von 2.18.5+ 2 aktualisiert CUDA12
CUDA 12.3 wurde von 2.21.5+ aktualisiert. CUDA12
Hinzugefügt
CUDA-Toolkit-Version 12.4 wurde im Verzeichnis/-12.4 hinzugefügt usr/local/cuda
Unterstützung für P5e-Instanzen hinzugefügt. EC2
Entfernt
Der CUDA Toolkit-Stack der Version 11.8 wurde entfernt, der im Verzeichnis/-11.8 vorhanden ist usr/local/cuda
Veröffentlichungsdatum: 2024-08-19
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 66.3
Hinzugefügt
Unterstützung für EC2 G6e-Instances hinzugefügt.
Veröffentlichungsdatum: 2024-06-06
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 65.4
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.9
Aktualisiert
Die Nvidia-Treiberversion wurde von 535.161.08 auf 535.183.01 aktualisiert
Datum der Veröffentlichung: 2024-05-02
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 64.7
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.2
Aktualisiert
Die EFA-Version wurde von Version 1.30 auf Version 1.32 aktualisiert
Das AWS OFI NCCL-Plugin wurde von Version 1.7.4 auf Version 1.9.1 aktualisiert
Das Nvidia-Container-Toolkit wurde von Version 1.13.5 auf Version 1.15.0 aktualisiert
Hinzugefügt
-
CUDA123.3-Stack mit CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7 hinzugefügt
Version 1.15.0 enthält NICHT die Pakete und nvidia-docker2. nvidia-container-runtime Es wird empfohlen, nvidia-container-toolkit Pakete direkt zu verwenden, indem Sie den Dokumenten zum Nvidia-Container-Toolkit folgen.
Entfernt
CUDA11.7, CUDA12 .0-Stapel entfernt, die bei/-12.0 vorhanden waren usr/local/cuda-11.7 and /usr/local/cuda
Das nvidia-docker2-Paket und sein Befehl nvidia-docker wurden als Teil des Nvidia-Container-Toolkit-Updates von 1.13.5 auf 1.15.0 entfernt, das NICHT die Pakete und nvidia-docker2 enthält. nvidia-container-runtime
Veröffentlichungsdatum: 2024-04-04
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 64.0
Hinzugefügt
Für den OSS-Nvidia-Treiber wurde DLAMIs Unterstützung für G6- und EC2 Gr6-Instances hinzugefügt
Veröffentlichungsdatum: 2024-03-29
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 62.3
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 63.2
Aktualisiert
Der Nvidia-Treiber wurde sowohl im proprietären als auch im OSS-Nvidia-Treiber von 535.104.12 auf 535.161.08 aktualisiert. DLAMIs
-
Die neuen unterstützten Instanzen für jedes DLAMI lauten wie folgt:
Deep Learning mit proprietärem Nvidia-Treiber unterstützt G3 (G3.16x nicht unterstützt), P3, P3dn
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, P4d, P4de, P5.
Entfernt
Die Unterstützung für G4dn-, G5- und EC2 G3.16x-Instanzen wurde aus dem proprietären Nvidia-Treiber DLAMI entfernt.
Datum der Veröffentlichung: 20.03.2024
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 63.1
Hinzugefügt
awscliv2 wurde im AMI als//usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsauf dem OSS Nvidia Driver AMI hinzugefügt
Datum der Veröffentlichung: 2024-03-13
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 63.0
Aktualisiert
-
Aktualisierter OSS Nvidia-Treiber DLAMI mit G4dn- und G5-Unterstützung, basierend darauf sieht die aktuelle Unterstützung wie folgt aus:
Das proprietäre Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) unterstützt P3, P3dn, G3, G4dn, G5.
Das Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) unterstützt G4dn, G5, P4, P5.
DLAMIs Es wird empfohlen, die OSS-Nvidia-Treiber für G4dn, G5, P4, P5 zu verwenden.
Veröffentlichungsdatum: 2024-02-13
AMI-Namen
Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 62.1
Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 62.1
Aktualisiert
Der OSS Nvidia-Treiber wurde von 535.129.03 auf 535.154.05 aktualisiert
EFA wurde von 1.29.0 auf 1.30.0 aktualisiert
AWS OFI NCCL wurde von 1.7.3-aws auf 1.7.4-aws aktualisiert
Datum der Veröffentlichung: 2024-02-01
AMI-Name: Proprietäres Nvidia-Treiber-AMI von Deep Learning Base (Amazon Linux 2) Version 62.0
Sicherheit
Die Runc-Paketversion wurde aktualisiert, um den Patch für CVE-2024-21626
zu verwenden.
Version 6.1.4
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 61.4
Aktualisiert
Der OSS-Nvidia-Treiber wurde von 535.104.12 auf 535.129.03 aktualisiert
Version 61.0
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-AMI (Amazon Linux 2) Version 61.4
Aktualisiert
EFA wurde von 1.26.1 auf 1.29.0 aktualisiert
GDRCopy aktualisiert von 2.3 auf 2.4
Hinzugefügt
-
AWS Deep Learning AMI (DLAMI) ist in zwei separate Gruppen aufgeteilt:
DLAMI, das den proprietären Treiber von Nvidia verwendet (zur Unterstützung von P3, P3dn, G3, G5, G4dn).
DLAMI, das den Nvidia OSS-Treiber verwendet, um EFA zu aktivieren (zur Unterstützung von P4, P5).
Weitere Informationen zu DLAMI Split finden Sie in der öffentlichen Ankündigung.
AWS CLI Abfragen finden Sie unter dem Aufzählungspunkt Abfrage AMI-ID mit AWSCLI (Beispiel Region ist us-east-1)
Version 60.6
AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.6
Aktualisiert
AWS Das OFI NCCL Plugin wurde von Version 1.7.2 auf Version 1.7.3 aktualisiert
Die CUDA 12.0-12.1-Verzeichnisse wurden mit der NCCL-Version 2.18.5 aktualisiert
-
CUDA12.1 wurde als Standard-CUDA-Version aktualisiert
LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Für Kunden, die zu einer anderen CUDA-Version wechseln möchten, definieren Sie bitte die Variablen LD_LIBRARY_PATH und PATH entsprechend.
Hinzugefügt
Kernel Live Patching ist jetzt aktiviert. Live-Patching ermöglicht es Kunden, Sicherheitslücken und kritische Bug-Patches auf einen laufenden Linux-Kernel anzuwenden, ohne Neustarts oder Unterbrechungen laufender Anwendungen. Bitte beachten Sie, dass die Live-Patching-Unterstützung für Kernel 5.10.192 am 30.11.23 endet.
Version 6.0.5
AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.5
Aktualisiert
Der NVIDIA-Treiber wurde von 535.54.03 auf 535.104.12 aktualisiert
Dieser neueste Treiber behebt wichtige NVML-ABI-Änderungen im 535.54.03-Treiber sowie die Treiberregression im Treiber 535.86.10, die CUDA-Toolkits auf P5-Instances betraf. Einzelheiten zu den Problembehebungen finden Sie in den folgenden NVIDIA-Versionshinweisen:
CUDA 12.2-Verzeichnisse mit NCCL 2.18.5 aktualisiert
EFA wurde von 1.24.1 auf die neueste Version 1.26.1 aktualisiert
Hinzugefügt
2.2 bei//-12.2 hinzugefügt CUDA12 usr/local/cuda
Entfernt
Die Unterstützung für CUDA 11.5 und CUDA 11.6 wurde entfernt
Version 60.2
AMI-Name: Deep Learning Base-AMI (Amazon Linux 2) Version 60.2
Aktualisiert
aws-ofi-ncclDas Plugin wurde von v1.7.1 auf v1.7.2 aktualisiert
Version 60.0
Veröffentlichungsdatum: 2023-08-11
Hinzugefügt
Dieses AMI bietet jetzt Unterstützung für Trainingsfunktionen mit mehreren Knoten auf P5 und allen zuvor unterstützten Instances EC2
Für EC2 P5-Instances wird die Verwendung von NCCL 2.18 empfohlen. Es wurde zu Version 2.0 und .1 hinzugefügt. CUDA12 CUDA12
Entfernt
Die Unterstützung für .5 wurde entfernt. CUDA11
Version 5.9.2
Veröffentlichungsdatum: 2023-08-08
Entfernt
CUDA-11.3 und CUDA-11.4 wurden entfernt
Version 59.1
Veröffentlichungsdatum: 2023-08-03
Aktualisiert
Das AWS OFI NCCL-Plugin wurde auf v1.7.1 aktualisiert
-
Made CUDA11 .8 als Standard, da PyTorch 2.0 11.8 unterstützt und für EC2 P5-Instances wird empfohlen, >= .8 zu verwenden. CUDA11
LD_LIBRARY_PATH wurde auf//aktualisiert usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Für jede andere Cuda-Version definieren Sie LD_LIBRARY_PATH bitte entsprechend.
Fixed
Das in der früheren Version 2023-07-19 erwähnte Problem beim Laden von Nvidia Fabric Manager (FM) -Paketen wurde behoben.
Version 58.9
Veröffentlichungsdatum: 2023-07-19
Aktualisiert
Der Nvidia-Treiber wurde von 525.85.12 auf 535.54.03 aktualisiert
Das EFA-Installationsprogramm wurde von 1.22.1 auf 1.24.1 aktualisiert
Hinzugefügt
Es wurden C-State-Änderungen hinzugefügt, um den Leerlaufstatus des Prozessors zu deaktivieren, indem der maximale C-Status auf C1 gesetzt wurde. Diese Änderung wird vorgenommen, indem `intel_idle.max_cstate=1 processor.max_cstate=1` in den Linux-Boot-Argumenten in der Datei/gesetzt wird etc/default/grub
-
AWS EC2 Unterstützung für P5-Instanzen:
EC2 P5-Instanzunterstützung für Workflows hinzugefügt, die einen einzelnen Knoten/eine einzelne Instanz verwenden. Unterstützung mehrerer Knoten (z. B. für Schulungen mit mehreren Knoten) mithilfe von EFA (Elastic Fabric Adapter) und dem AWS OFI NCCL-Plugin wird in einer kommenden Version hinzugefügt.
Bitte verwenden Sie CUDA>=11.8 für eine optimale Leistung.
Bekanntes Problem: Das Laden des Nvidia Fabric Manager (FM) -Pakets auf P5 dauert einige Zeit. Kunden müssen nach dem Start der P5-Instance 2-3 Minuten warten, bis FM geladen wird. Um zu überprüfen, ob FM gestartet wurde, führen Sie bitte den Befehl sudo systemctl is-active nvidia-fabricmanager aus. Er sollte wieder aktiv sein, bevor Sie einen Workflow starten. Dies wird in der kommenden Version behoben.
Version 58.0
Veröffentlichungsdatum: 2023-05-19
Entfernt
Der Stapel CUDA11 .0-11.2 wurde gemäß der im oberen Abschnitt dieses Dokuments genannten Support-Richtlinie entfernt.
Version 5.7.3
Veröffentlichungsdatum: 2023-04-06
Hinzugefügt
Nvidia 2.3 hinzugefügt GDRCopy
Version 56.8
Veröffentlichungsdatum: 2023-03-09
Aktualisiert
Der NVIDIA-Treiber wurde von 515.65.01 auf 525.85.12 aktualisiert
Hinzugefügt
usr/local/cudacuda-11.8 bei/-11.8/ hinzugefügt
Ausführung 56.0
Veröffentlichungsdatum: 2022-06
Aktualisiert
Die EFA-Version wurde von 1.17.2 auf 1.19.0 aktualisiert
Version 55.0
Veröffentlichungsdatum: 04.11.2022
Aktualisiert
Der NVIDIA-Treiber wurde von 510.47.03 auf 515.65.01 aktualisiert
Hinzugefügt
usr/local/cudacuda-11.7 unter/-11.7/ hinzugefügt
Ausführung 54.0
Veröffentlichungsdatum: 2015-09-15
Aktualisiert
Die EFA-Version wurde von 1.16.0 auf 1.17.2 aktualisiert
Version 53.3
Veröffentlichungsdatum: 25.05.2022
Aktualisiert
Auf Version aws-efa-installer 1.15.2 aktualisiert
Auf Version 1.3.0-aws aktualisiert aws-ofi-nccl, die die Topologie für p4de.24xlarge enthält.
Hinzugefügt
Diese Version bietet Unterstützung für p4de.24xlarge-Instances. EC2
Version 53.0
Veröffentlichungsdatum: 28.04.2022
Hinzugefügt
CloudWatch Amazon-Agent hinzugefügt
-
Es wurden drei systemd-Dienste hinzugefügt, die vordefinierte JSON-Dateien verwenden, die unter Pfadopt/aws/amazon-cloudwatch-agent/etc//verfügbar sind, um GPU-Metriken mithilfe des Linux-Benutzers cwagent zu konfigurieren
-
dlami-cloudwatch-agent@minimal
Befehle zum Aktivieren von GPU-Metriken:
sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
Es erstellt diese Metriken:
utilization_gpu
,utilization_memory
-
dlami-cloudwatch-agent@partial
Befehle zum Aktivieren von GPU-Metriken:
sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
Es erstellt diese Metriken:
utilization_gpu
,utilization_memory
,memory_total
,memory_used
,memory_free
-
dlami-cloudwatch-agent@all
-
Befehle zum Aktivieren von GPU-Metriken:
sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
Es erstellt alle verfügbaren GPU-Metriken
-
-
Version 52.0
Veröffentlichungsdatum: 08.03.2022
Aktualisiert
Kernel-Version auf 5.10 aktualisiert
Version 51.0
Veröffentlichungsdatum: 04.03.2022
Aktualisiert
Der Nvidia-Treiber wurde auf 510.47.03 aktualisiert
Version 50.0
Veröffentlichungsdatum: 17.02.2022
Aktualisiert
Gesperrt aws-neuron-dkms und tensorflow-model-server-neuron sobald sie auf neuere Versionen aktualisiert werden, die von den in AMI vorhandenen Neuron-Paketen nicht unterstützt werden
Befehle, falls der Kunde das Paket entsperren möchte, um es auf die neueste Version zu aktualisieren: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron
Version 49.0
Veröffentlichungsdatum: 13.01.2022
Hinzugefügt
CUDA112.2 mit den folgenden Komponenten hinzugefügt:
cuDNN v8.1.1.33
NCCL 2.8.4
CUDA 11.2.2
Aktualisiert
Symlink Pip wurde auf Pip3 aktualisiert
Veraltungen
Veraltete Unterstützung für den Instanztyp P2
Python2.7 wurde verworfen und verwandte Python2.7-Pakete wie „python-dev“, „python-pip“ und „python-tk“ entfernt
Version 48.0
Veröffentlichungsdatum: 2021-12-27
Aktualisiert
org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar wurde aus den Cuda-Versionen entfernt, da es nicht verwendet wird und kein Risiko für Benutzer mit den Log4j-Dateien besteht. Weitere Informationen finden Sie unter https://nvidia.custhelp.com/app/answers/detail/a_id/5294
.
Version 47.0
Veröffentlichungsdatum: 2021-11-24
Aktualisiert
EFA wurde auf 1.14.1 aktualisiert
Version 46.0
Veröffentlichungsdatum: 2021-11-12
Aktualisiert
Neuron-Pakete wurden von =1.5 aktualisiert. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, aws-neuron-tools =1.6.* bis =2.2. aws-neuron-dkms *, =1,6. aws-neuron-runtime-base *, aws-neuron-tools =2,0*.
Das Neuron-Paket aws-neuron-runtime =1.5.* wurde entfernt, da bei Neuron keine Runtime mehr als Daemon läuft und Runtime jetzt als Bibliothek in das Framework integriert ist.
Version 45.0
Veröffentlichungsdatum: 2021-10-21
Hinzugefügt
Sicherheitsscan-Berichte im JSON-Format sind unter//verfügbar. opt/aws/dlami/info
Version 44.0
Veröffentlichungsdatum: 2021-10-08
der Änderung
Für jeden Instance-Start mit DLAMI wird das Tag "aws-dlami-autogenerated-tag-do-not-delete" hinzugefügt, das es ermöglicht, Instance-Typ, Instance-ID, DLAMI-Typ und Betriebssysteminformationen AWS zu sammeln. Es werden keine Informationen zu den in der DLAMI verwendeten Befehlen gesammelt oder gespeichert. Es werden keine weiteren Informationen über das DLAMI gesammelt oder gespeichert. Um die Nutzungsverfolgung für Ihr DLAMI zu deaktivieren, fügen Sie Ihrer EC2 Amazon-Instance beim Start ein Tag hinzu. Das Tag sollte den Schlüssel OPT_OUT_TRACKING verwenden, wobei der zugehörige Wert auf true gesetzt ist. Weitere Informationen finden Sie unter Taggen Sie Ihre EC2 Amazon-Ressourcen.
Sicherheit
Docker-Version auf Docker-20.10.7-3 aktualisiert
Version 43.0
Veröffentlichungsdatum: 2021-08-24
der Änderung
„Notebook“ auf Version „6.4.1" aktualisiert.
Version 4.2.0
Veröffentlichungsdatum: 2021-07-23
der Änderung
Die Version des Nvidia-Treibers und des Fabric Managers wurde auf 450.142.00 aktualisiert.
Version 41.0
Veröffentlichungsdatum: 2021-06-24
der Änderung
Aktualisierte Neuron-Pakete gemäß Neuron Release v1.14.0
Version 40.0
Veröffentlichungsdatum: 2021-06-10
der Änderung
Die awscli-Version wurde auf 1.19.89 aktualisiert
Version 39.0
Veröffentlichungsdatum: 2021-05-27
Sicherheit
Die anfälligen CUDA-10.0-Komponenten (Visual Profiler, Nsight EE und JRE) wurden aus der CUDA-10.0-Installation (/-10.0) entfernt. usr/local/cuda
Version 38.0
Veröffentlichungsdatum: 2021-05-25
der Änderung
Runc auf den neuesten Stand gebracht
Version 37.0
Veröffentlichungsdatum: 2021-04-23
der Änderung
Die Version des Nvidia Tesla-Treibers und des Fabric Managers wurde auf 450.119.03 aktualisiert.
Version 36.1
Veröffentlichungsdatum: 2021-04-21
Fixed
Es wurde ein Problem behoben, das die Startgeschwindigkeit der Instance verlangsamte.
Version 36.0
Veröffentlichungsdatum: 2021-03-24
Hinzugefügt
tensorflow-model-server-neuronZur Unterstützung der Bereitstellung von Neuronenmodellen hinzugefügt.
der Änderung
Jupyterlab wurde auf Version 3.0.8 für Python3 aktualisiert.
Fixed
Die alte Installation von OpenMPI in/usr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpiist verfügbar.
Entfernt doppelte und nicht existierende Definitionen von Shell-Umgebungen, die die Shell-Umgebungsvariablen wie PATH und LD_LIBRARY_PATH verschmutzt haben. Als Ergebnis wurden ~/.dlami und/.sh hinzugefügt. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami
Sicherheit
Version 35.0
Veröffentlichungsdatum: 2021-03-08
Hinzugefügt
TensorRT
CUDA 11.0-Installation hinzugefügt
Version 34.3
Veröffentlichungsdatum: 25.02.2021
Fixed
Es wurde ein Tippfehler in der MOTD (Message of the Day) behoben, durch den Version 34.1 fälschlicherweise angezeigt wurde.
Version 34.2
Veröffentlichungsdatum: 2021-02-24
Sicherheit
Python2 und Python3 für CVE-2021-3177 gepatcht
Bekanntes Problem
Es gibt einen Tippfehler in der MOTD (Nachricht des Tages), durch den Version 34.1 falsch angezeigt wurde. Wir werden Version 34.3 veröffentlichen, um dieses Problem zu beheben.
Version 34.0
Veröffentlichungsdatum: 2021-02-09
der Änderung
Pip wurde für Python2 an Version 20.3.4 angeheftet. Dies ist die letzte Pip-Version, die Python2 und Python3.5 unterstützt.
Version 33.0
Veröffentlichungsdatum: 2021-01-19
der Änderung
Die cuDNN-Version wurde auf Version 8.0.5.39 in Version 2.0 und 8.1 aktualisiert. CUDA11 CUDA11
Version 3.2.0
Veröffentlichungsdatum: 2020-12-01
Hinzugefügt
CUDA11.1 mit NCCL 2.7.8, cuDNN 8.0.4.30 für Deep Learning AMI (Amazon Linux 2), Deep Learning AMI (Ubuntu 16.04), Deep Learning AMI (Ubuntu 18.04), Deep Learning Base AMI (Ubuntu 16.04), Deep Learning Base AMI (Ubuntu 18.04), Deep Learning Base AMI (Amazon Linux 2) hinzugefügt.
Version 3.1.0
Veröffentlichungsdatum: 2020-11-02
der Änderung
Das EFA-Installationsprogramm wurde auf Version 1.10.0 aktualisiert.
Die cuDNN-Version wurde auf v8.0.4.30 für CUDA 11.0 aktualisiert.
AWS Neuron wurde auf Version 1.1 aktualisiert
Version 30.0
Veröffentlichungsdatum: 2020-10-08
der Änderung
Die NVIDIA-Treiber- und Fabric Manager-Versionen wurden auf 450.80.02 aktualisiert
NCCL wurde für 2.0 auf 2.7.8 in aktualisiert CUDA11
Fixed
Es wurde ein Problem behoben, bei dem Yum ein Python-Paket verwaltete, das von pipmanagten Installationen überschrieben wurde. Die ausführbaren Dateien pip, pip3 und pip3.7 wurden aus dem /-Teil dieses Fixes verschoben. usr/binto /usr/local/binas
Version 29.0
Veröffentlichungsdatum: 2020-09-11
der Änderung
Der NVIDIA-Treiber wurde von Version 450.51.05 auf 450.51.06 aktualisiert
NVIDIA Fabric Manager Version 450.51.06 wurde hinzugefügt
EFA wurde auf 1.9.4 aktualisiert
Version 28.0
Veröffentlichungsdatum: 2020-08-19
der Änderung
CUDA 11.0-Stack mit NCCL 2.7.6 und cuDNN 8.0.2.39 hinzugefügt
Version 27.0
Veröffentlichungsdatum: 2020-08-07
der Änderung
EFA wurde von Version 1.7.1 auf 1.9.3 aktualisiert unter/opt/amazon/efa
Das Upgrade von Open MPI von Version 4.0.3 auf 4.0.4 in '/' usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun ist immer noch auf Version 4.0.3
Der NVIDIA-Treiber wurde von 440.33.01 auf 450.51.05 aktualisiert
Die NCCL-Version wurde in 0.2 von 2.6.4 auf 2.7.6 aktualisiert CUDA1
Version 26.0
Veröffentlichungsdatum: 2020-08-03
der Änderung
AWS OFI NCCL wurde auf den neuesten Stand gebracht. Weitere Informationen finden Sie hier.
Cuda 8.0/9.0/9.2 wurden aus dem AMI entfernt
Fixed
Es wurde ein Fehler behoben, bei dem die gemeinsam genutzte Objektdatei: libopencv_dnn.so.4.2 nicht geöffnet werden konnte.
Version 25.0
Veröffentlichungsdatum: 2020-07-19
der Änderung
Die EFA-Version wurde auf 1.7.1 aktualisiert, um NCCL 2.6.4 zu unterstützen
Die NCCL-Version wurde für CUDA 10.2 auf 2.6.4 aktualisiert
Die awscli-Version wurde von 1.16.76 auf 1.18.80 aktualisiert
Die boto3-Version wurde von 1.9.72 auf 1.14.3 aktualisiert
Version 24.1
Veröffentlichungsdatum: 2020-06-14
der Änderung
Docker-Version auf 19.03.6 aktualisiert
Version 24.0
Veröffentlichungsdatum: 2020-05-20
der Änderung
Docker-Version auf 19.03.6 aktualisiert
Version 23.0
Veröffentlichungsdatum: 2020-04-29
der Änderung
Aktualisierte Python-Paketversionen
Version 22.0
Veröffentlichungsdatum: 2020-03-04
der Änderung
CUDA 10.2-Stack hinzugefügt
CUDA 10.0 und 10.1 für cuDNN- und NCCL-Version aktualisiert