Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Deep-Learning-AMI-GPU PyTorch 2.6 (Ubuntu 22.04)
Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.
AMI-Namensformat
Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.6. $ {PATCH-VERSION} (Ubuntu 22.04) $ {YYY-MM-DD}
EC2 Unterstützte Instanzen
Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI.
Deep Learning mit OSS Der Nvidia-Treiber unterstützt G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.
Das AMI umfasst Folgendes:
Unterstützter AWS Service: Amazon EC2
Betriebssystem: Ubuntu 22.04
Rechenarchitektur: x86
Python:/opt/pytorch/bin/python
NVIDIA-Treiber:
OS Nvidia-Treiber: 570.86.15
NVIDIA 1.1-Stapel: CUDA12
CUDA-, NCCL- und cuDDN-Installationspfad:/-12.6/ usr/local/cuda
-
Standard-CUDA: 12.6
PFAD/-12.6/ usr/local/cuda points to /usr/local/cuda
-
Die folgenden Umgebungsvariablen wurden aktualisiert:
LD_LIBRARY_PATH soll/haben usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
PATH soll//haben usr/local/cuda/bin/:/usr/local/cuda/include
Die kompilierte System-NCCL-Version ist unter/usr/local/cuda/vorhanden: 2.24.3
PyTorch Kompilierte NCCL-Version aus der Conda-Umgebung: 2.21.5 PyTorch
Ort der NCCL-Tests:
all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Um NCCL-Tests auszuführen, wurde LD_LIBRARY_PATH bereits mit den erforderlichen Pfaden aktualisiert.
Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
LD_LIBRARY_PATH wurde mit CUDA-Versionspfaden aktualisiert
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
EFA-Installationsprogramm: 1.38.0
Nvidia: 2.4.1 GDRCopy
Nvidia-Transformer-Engine: v1.11.0
AWS OFI NCCL: 1.13.2-aws
Installationspfad:/wird zu LD_LIBRARY_PATH hinzugefügt. opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib
Hinweis: Das PyTorch Paket enthält auch ein dynamisch verlinktes AWS OFI-NCCL-Plugin als Conda-Paketpaket und PyTorch verwendet dieses aws-ofi-nccl-dlc Paket anstelle von System-OFI-NCCL. AWS
AWS CLI v2 als aws2 und v1 als aws AWS CLI
EBS-Volumetyp: gp3
Python-Version: 3.11
AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):
OSS Nvidia-Treiber:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Hinweise
PyTorch Einstellung des Anaconda-Kanals
Ab Version PyTorch 2.6 hat Pytorch die Unterstützung für Conda eingestellt (siehe offizielle Ankündigung).
P5/P5e-Instanzen:
DeviceIndex ist für jedes Exemplar eindeutig und muss eine nicht negative Ganzzahl sein NetworkCard, die unter dem Grenzwert von per liegt. ENIs NetworkCard Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind. Im Folgenden finden Sie ein Beispiel für einen Befehl zum Starten einer EC2 P5-Instanz mithilfe von awscli, der NetworkCardIndex von der Nummer 0-31 und DeviceIndex als 0 für die erste Schnittstelle und DeviceIndex als 1 für die restlichen 31 Schnittstellen angezeigt wird.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Die Kernel-Version wird mit dem folgenden Befehl gepinnt:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.
Veröffentlichungsdatum: 2025-02-21
AMI-Name: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.6.0 (Ubuntu 22.04) 20250220
Hinzugefügt
Erste Version der Deep Learning AMI GPU PyTorch 2.6 (Ubuntu 22.04) -Serie. Einschließlich einer virtuellen Python-Umgebung pytorch (source/opt/pytorch/bin/activate), ergänzt durch den NVIDIA-Treiber R570, CUDA=12.6, cuDNN=9.7, NCCL=2.21.5 und EFA=1.38.0. PyTorch
Ab PyTorch Version 2.6 hat Pytorch die
Unterstützung für Conda eingestellt (siehe offizielle Ankündigung). Infolgedessen werden Pytorch 2.6 und höher zur Verwendung von virtuellen Python-Umgebungen übergehen. Um Pytorch Venv zu aktivieren, aktivieren Sie es bitte mit source/opt/pytorch/bin/activate