AMI-Namensformat EC2 Unterstützte Instanzen:AMI-Inhalte Hinweise Veröffentlichungsdatum: 2025-02-21

AWS Deep-Learning-AMI-GPU PyTorch 2.6 (Amazon Linux 2023)

Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.

AMI-Namensformat

Deep-Learning-OSS-NVIDIA-Treiber AMI-GPU PyTorch 2.6.0 (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Unterstützte Instanzen:

Weitere Informationen finden Sie unter Wichtige Änderungen an DLAMI
Der NVIDIA-Treiber Deep Learning mit OSS unterstützt G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

Das AMI umfasst Folgendes:

Unterstützter AWS Dienst: EC2
Betriebssystem: Amazon Linux 2023
Rechenarchitektur: x86
NVIDIA CUDA12 6.6-Stapel:
- CUDA-, NCCL- und cuDDN-Installationspfad:/-12.6/ usr/local/cuda
- Standard-CUDA: 12.6
  - PFAD/-12.6/ usr/local/cuda points to /usr/local/cuda
  - Die folgenden Umgebungsvariablen wurden aktualisiert:
    
    LD_LIBRARY_PATH soll/haben usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
    PATH soll//haben usr/local/cuda/bin/:/usr/local/cuda/include
- Kompilierte NCCL-Version für 12.6:2.24.3
Ort der NCCL-Tests:
- all_reduce, all_gather und reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
- Um NCCL-Tests auszuführen, wurde LD_LIBRARY_PATH bereits mit den erforderlichen Pfaden aktualisiert.
  - Häufig verwendete Dateien wurden bereits zu LD_LIBRARY_PATH hinzugefügt: PATHs
    
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
  - LD_LIBRARY_PATH wurde mit CUDA-Versionspfaden aktualisiert
    
    /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
EFA-Installationsprogramm: 1.43.1
Nvidia GDRCopy: 2.4.1
AWS OFI NCCL-Plugin: wird als Teil des EFA Installer-AWS installiert
- AWS OFI NCCL unterstützt jetzt mehrere NCCL-Versionen mit einem einzigen Build
- Der Installationspfad:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libwurde zu LD_LIBRARY_PATH hinzugefügt.
Python-Version: 3.12
Python:/opt/pytorch/bin/python
NVIDIA-Treiber: 570.172.08
AWS CLI v2 bei/usr/bin/aws
EBS-Volumetyp: gp3
NVMe Standort des Instance-Speichers (bei unterstützten EC2 Instances):/opt/dlami/nvme

AMI-ID mit SSM-Parameter abfragen (Beispiel Region ist us-east-1):

OSS Nvidia-Treiber:


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-amazon-linux-2023/latest/ami-id  \
    --query "Parameter.Value" \
    --output text

AMI-ID abfragen mit AWSCLI (Beispiel Region ist us-east-1):

OSS Nvidia-Treiber:


aws ec2 describe-images --region us-east-1 \
    --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Hinweise

PyTorch Einstellung des Anaconda-Kanals

Ab Version PyTorch 2.6 wird die Unterstützung für Conda eingestellt (siehe offizielle Ankündigung). PyTorch Infolgedessen werden Version PyTorch 2.6 und höher zur Verwendung von virtuellen Python-Umgebungen übergehen. Um das PyTorch Venv zu aktivieren, verwenden Sie bitte source/opt/pytorch/bin/activate

P5/P5e-Instanzen:

DeviceIndex ist für jedes Exemplar eindeutig und muss eine nicht negative Ganzzahl sein NetworkCard, die unter dem Grenzwert von per liegt. ENIs NetworkCard Auf P5 NetworkCard ist die Anzahl von ENIs per 2, was bedeutet, dass die einzig gültigen Werte für 0 oder 1 DeviceIndex sind. Im Folgenden finden Sie ein Beispiel für einen Befehl zum Starten einer EC2 P5-Instanz mithilfe von awscli, der NetworkCardIndex von der Nummer 0-31 und DeviceIndex als 0 für die erste Schnittstelle und DeviceIndex als 1 für die restlichen 31 Schnittstellen angezeigt wird.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

Die Kernel-Version wird mit dem folgenden Befehl gepinnt:
```
sudo dnf versionlock kernel*
```
Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:
```
sudo dnf versionlock delete kernel*
sudo dnf update -y
```
Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.

Veröffentlichungsdatum: 2025-02-21

AMI-Name: Deep Learning OSS Nvidia-Treiber AMI GPU PyTorch 2.6.0 (Amazon Linux 2023) 20250220

Hinzugefügt

Erste Version des Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6 für Amazon Linux 2023
- Ab Version PyTorch 2.6 unterstützt Pytorch Conda nicht mehr. Infolgedessen werden Pytorch 2.6 und höher zur Verwendung von virtuellen Python-Umgebungen übergehen. Um den Pytorch Venv zu aktivieren, verwenden Sie bitte source/opt/pytorch/bin/activate

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

GPU PyTorch 2.7 (Ubuntu 22.04)

GPU PyTorch 2.6 (Ubuntu 22.04)