Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Deep-Learning-Base-GPU-AMI (Amazon Linux 2023)
Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.
AMI-Namensformat
Deep Learning Base OSS Nvidia-Treiber-GPU-AMI (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Unterstützte Instanzen
Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200
Das AMI umfasst Folgendes:
Unterstützter AWS Service: Amazon EC2
Betriebssystem: Amazon Linux 2023
Rechenarchitektur: x86
Die neueste verfügbare Version ist für die folgenden Pakete installiert:
Linux-Kernel: 6.1
FSx Glanz
NVIDIA GDS
Docker
AWS CLI v2 bei/usr/local/bin/aws2 und AWS CLI v1 bei/usr/bin/aws
NVIDIA DCGM
Nvidia-Container-Toolkit:
Versionsbefehl: -V nvidia-container-cli
NVIDIA-Docker2:
Versionsbefehl: nvidia-docker version
NVIDIA-Treiber: 570.133.20
NVIDIA CUDA 12.4-12.6- und 12.8-Stapel:
Installationsverzeichnisse für CUDA, NCCL und cuDDN:/-xx.x/ usr/local/cuda
Beispiel:/-12.8/ usr/local/cuda-12.8/ , /usr/local/cuda
Kompilierte NCCL-Version: 2.26.5
Standard-CUDA: 12.8
PATH//usr/local/cudazeigt auf CUDA 12.8
Die folgenden Umgebungsvariablen wurden aktualisiert:
LD_LIBRARY_PATH soll/haben usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib
PATH soll//haben usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.
EFA-Installationsprogramm: 1.40.0
Nvidia GDRCopy: 2.5
AWS OFI NCCL: 1.14.2-aws
AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build
Der Installationspfad:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libwurde zu LD_LIBRARY_PATH hinzugefügt.
AWS CLI v2 bei//2 und v1 bei/usr/local/bin/aws AWS CLI usr/bin/aws
EBS-Volumetyp: gp3
Python:/usr/bin/python3.9
NVMe Speicherort des Instanzspeichers (bei unterstützten EC2 Instanzen):/opt/dlami/nvme
AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Hinweise
NVIDIA-Container-Toolkit 1.17.4
In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.
Unterstützungspolitik
Diese AMIs Komponenten dieses AMI, wie CUDA-Versionen, können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container
P6-B200-Instanzen
P6-B200-Instances enthalten 8 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en-Instanzen
P5en-Instances enthalten 16 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e-Instanzen
P5- und P5e-Instances enthalten 32 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
-
Die Kernel-Version wird mit dem folgenden Befehl gepinnt:
sudo dnf versionlock kernel*
-
Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
sudo dnf versionlock delete kernel* sudo dnf update -y
Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.
Veröffentlichungsdatum: 2025-05-15
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250515
Hinzugefügt
Aktualisiert
Der EFA Installer wurde von Version 1.38.1 auf 1.40.0 aktualisiert
GDRCopy Von Version 2.4 auf 2.5 aktualisiert
Das AWS OFI NCCL Plugin wurde von Version 1.13.0-aws auf 1.14.2-aws aktualisiert
Die kompilierte NCCL-Version wurde von Version 2.25.1 auf 2.26.5 aktualisiert
Die Standard-CUDA-Version wurde von Version 12.6 auf 12.8 aktualisiert
Die Nvidia DCGM-Version wurde von 3.3.9 auf 4.4.3 aktualisiert
Datum der Veröffentlichung: 2025-04-22
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250421
Aktualisiert
Datum der Veröffentlichung: 31.03.2025
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250328
Hinzugefügt
Unterstützung für NVIDIA GPU Direct Storage
(GDS) wurde hinzugefügt
Veröffentlichungsdatum: 2025-02-17
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250215
Aktualisiert
Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert
In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.
Entfernt
Veröffentlichungsdatum: 05.02.2025
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250205
Hinzugefügt
CUDA-Toolkit Version 12.6 wurde im Verzeichnis/-12.6 hinzugefügt usr/local/cuda
Unterstützung für G5-Instances hinzugefügt EC2
Entfernt
Die CUDA-Versionen 12.1 und 12.2 wurden aus diesem DLAMI entfernt. Kunden, die diese CUDA-Toolkit-Versionen benötigen, können sie über den folgenden Link direkt von NVIDIA installieren
Veröffentlichungsdatum: 2025-02-03
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250131
Aktualisiert
Die EFA-Version wurde von 1.37.0 auf 1.38.0 aktualisiert
EFA bündelt jetzt das AWS OFI-NCCL-Plugin, das sich jetzt in/-ofi-nccl/ befindet. opt/amazon/ofi-nccl rather than the original /opt/aws Wenn Sie Ihre Variable LD_LIBRARY_PATH aktualisieren, stellen Sie bitte sicher, dass Sie Ihren OFI-NCCL-Speicherort korrekt ändern.
Das Nvidia Container Toolkit wurde von 1.17.3 auf 1.17.4 aktualisiert
Datum der Veröffentlichung: 2025-01-08
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250107
Aktualisiert
Veröffentlichungsdatum: 2024-12-09
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20241206
Aktualisiert
Das Nvidia Container Toolkit wurde von Version 1.17.0 auf 1.17.3 aktualisiert
Veröffentlichungsdatum: 2024-11-21
AMI-Name: Deep Learning Base OSS Nvidia-Treiber-GPU-AMI (Amazon Linux 2023) 20241121
Hinzugefügt
Unterstützung für P5en-Instances hinzugefügt. EC2
Aktualisiert
Der EFA Installer wurde von Version 1.35.0 auf 1.37.0 aktualisiert
Aktualisieren Sie das AWS OFI NCCL Plugin von Version 1.121-aws auf 1.13.0-aws
Datum der Veröffentlichung: 2024-10-30
AMI-Name: Deep Learning Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20241030
Hinzugefügt
Erste Version des Deep Learning Base OSS DLAMI für Amazon Linux 2023
Bekannte Probleme
Dieses DLAMI unterstützt derzeit keine G4dn- und EC2 G5-Instances. AWS ist sich einer Inkompatibilität bewusst, die zu CUDA-Initialisierungsfehlern führen kann, die sich sowohl auf die G4dn- als auch auf die G5-Instance-Familien auswirken, wenn die Open-Source-NVIDIA-Treiber zusammen mit einer Linux-Kernel-Version 6.1 oder neuer verwendet werden. Dieses Problem betrifft unter anderem Linux-Distributionen wie Amazon Linux 2023, Ubuntu 22.04 oder neuer oder SUSE Linux Enterprise Server 15 SP6 oder neuer.