Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Deep-Learning-AMI-GPU PyTorch 2.5 (Amazon Linux 2023)
Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.
AMI-Namensformat
Deep-Learning-OSS-Nvidia-Treiber AMI-GPU PyTorch 2.5.1 (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Unterstützte Instanzen
Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Das AMI umfasst Folgendes:
Unterstützter AWS Dienst: EC2
Betriebssystem: Amazon Linux 2023
Rechenarchitektur: x86
NVIDIA CUDA12 4.4-Stapel:
CUDA-, NCCL- und cuDDN-Installationspfad:/-12.4/ usr/local/cuda
-
Standard-CUDA: 12.4
PFAD/-12.4/ usr/local/cuda points to /usr/local/cuda
-
Die folgenden Umgebungsvariablen wurden aktualisiert:
LD_LIBRARY_PATH soll/haben usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
PATH soll//haben usr/local/cuda/bin/:/usr/local/cuda/include
Kompilierte NCCL-Version für 12.4:2.21.5
Ort der NCCL-Tests:
all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
-
Um NCCL-Tests auszuführen, wurde LD_LIBRARY_PATH bereits mit den erforderlichen Pfaden aktualisiert.
Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
LD_LIBRARY_PATH wurde mit CUDA-Versionspfaden aktualisiert
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
EFA-Installationsprogramm: 1.38.0
Nvidia: 2.4.1 GDRCopy
AWS OFI NCCL: 1.13.2-aws
AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build
Installationspfad:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libwurde zu LD_LIBRARY_PATH hinzugefügt.
Testet den Pfad für Ring, message_transfer:/opt/aws-ofi-nccl/tests
Python-Version: 3.11
Python:/opt/conda/envs/pytorch/bin/python
NVIDIA-Treiber: 560.35.03
AWS CLI v2 bei/usr/bin/aws
EBS-Volumetyp: gp3
NVMe Speicherort des Instance-Speichers (auf unterstützten EC2 Instances):/opt/dlami/nvme
AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Hinweise
P5/P5e-Instanzen:
DeviceIndex ist für jedes Exemplar eindeutig und muss eine nicht negative Ganzzahl sein NetworkCard, die unter dem Grenzwert von per liegt. ENIs NetworkCard Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind. Im Folgenden finden Sie ein Beispiel für einen Befehl zum Starten einer EC2 P5-Instanz mithilfe von awscli, der NetworkCardIndex von der Nummer 0-31 und DeviceIndex als 0 für die erste Schnittstelle und DeviceIndex als 1 für die restlichen 31 Schnittstellen angezeigt wird.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Die Kernel-Version wird mit dem folgenden Befehl gepinnt:
sudo dnf versionlock kernel*
Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
sudo dnf versionlock delete kernel* sudo dnf update -y
Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.
Veröffentlichungsdatum: 2025-02-17
AMI-Name: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216
Aktualisiert
Das NVIDIA Container Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert
In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.
Entfernt
Veröffentlichungsdatum: 2025-01-08
AMI-Name: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107
Hinzugefügt
Support für G4dn-Instanzen
hinzugefügt.
Veröffentlichungsdatum: 21.11.2024
AMI-Name: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120
Hinzugefügt
Erste Version des Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 für Amazon Linux 2023
Bekannte Probleme
Dieses DLAMI unterstützt derzeit keine G4dn- und EC2 G5-Instances. AWS ist sich einer Inkompatibilität bewusst, die zu CUDA-Initialisierungsfehlern führen kann, die sich sowohl auf die G4dn- als auch auf die G5-Instance-Familien auswirken, wenn die Open-Source-NVIDIA-Treiber zusammen mit einer Linux-Kernel-Version 6.1 oder neuer verwendet werden. Dieses Problem betrifft unter anderem Linux-Distributionen wie Amazon Linux 2023, Ubuntu 22.04 oder neuer oder SUSE Linux Enterprise Server 15 SP6 oder neuer.