AWS ARM64 Deep-Learning-Base-GPU-AMI (Amazon Linux 2023) - AWS Deep Learning AMIs

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS ARM64 Deep-Learning-Base-GPU-AMI (Amazon Linux 2023)

Hilfe zu den ersten Schritten finden Sie unterErste Schritte mit DLAMI.

AMI-Namensformat

  • Deep Learning ARM64 Base OSS Nvidia-Treiber-GPU-AMI (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Unterstützte Instanzen

  • G5g, P6e- GB2 00 (CUDA>=12.8 wird auf P6e- 00 unterstützt) GB2

Das AMI umfasst Folgendes:

  • Unterstützter AWS Service: Amazon EC2

  • Betriebssystem: Amazon Linux 2023

  • Rechenarchitektur: ARM64

  • Die neueste verfügbare Version ist für die folgenden Pakete installiert:

    • Linux-Kernel: 6. 12

    • FSx Glanz

    • Docker

    • AWS CLI v2 bei/usr/bin/aws

    • NVIDIA DCGM

    • Nvidia-Container-Toolkit:

      • Versionsbefehl: -V nvidia-container-cli

    • NVIDIA-Docker2:

      • Versionsbefehl: nvidia-docker version

  • NVIDIA-Treiber: 570.158.01

  • NVIDIA CUDA 12.4, 12.5, 12.6, 12.8 Stapel:

    • CUDA-, NCCL - und cuDDN-Installationsverzeichnisse:/-xx.x/ usr/local/cuda

      • Beispiel:/-12.8/ usr/local/cuda-12.8/ , /usr/local/cuda

    • Kompilierte NCCL-Version:

      • Für das CUDA-Verzeichnis von 12.4, kompilierte NCCL-Version 2.22.3+ .4 CUDA12

      • Für das CUDA-Verzeichnis 12.5, kompilierte NCCL-Version 2.22.3+ .5 CUDA12

      • Für das CUDA-Verzeichnis von 12.6, kompilierte NCCL-Version 2.24.3+ .6 CUDA12

      • Für das CUDA-Verzeichnis von 12.8, kompilierte NCCL-Version 2.27.5+. CUDA12

    • Standard-CUDA: 12.8

      • PATH//usr/local/cudazeigt auf CUDA 12.8

      • Die folgenden Umgebungsvariablen wurden aktualisiert:

        • LD_LIBRARY_PATH soll/64 haben usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH soll//haben usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include

        • Für jede andere CUDA-Version aktualisieren Sie LD_LIBRARY_PATH bitte entsprechend.

  • EFA-Installationsprogramm: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWS Das OFI NCCL-Plugin wird mit dem EFA-Installationsprogramm geliefert

    • Die Pfade/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efawerden zu LD_LIBRARY_PATH hinzugefügt.

  • AWS CLI v2 bei/usr/local/bin/aws

  • EBS-Volumetyp: gp3

  • Python:/usr/bin/python3.9

  • AMI-ID mit SSM-Parameter abfragen (Beispielregion ist us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-amazon-linux-2023/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • AMI-ID abfragen mit AWSCLI (Beispielregion ist us-east-1):

    aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
P6e- 00-Instanzen GB2

P6e- GB2 00-Instances enthalten 17 Netzwerkschnittstellenkarten und können mit dem folgenden Befehl gestartet werden: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

Hinweise

NVIDIA Container Toolkit 1.17.4

In der Container Toolkit-Version 1.17.4 ist das Mounten von CUDA-kompatiblen Bibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, stellen Sie bitte sicher, dass Sie Ihren LD_LIBRARY_PATH so aktualisieren, dass er Ihre CUDA-Kompatibilitätsbibliotheken enthält, wie im Tutorial Wenn Sie eine CUDA-Kompatibilitätsschicht verwenden gezeigt.

Unterstützungspolitik

Diese AMIs Komponenten dieses AMI, wie CUDA-Versionen, können auf der Grundlage von Framework-Supportrichtlinien oder zur Optimierung der Leistung für Deep-Learning-Container oder zur Reduzierung der AMI-Größe in einer future Version ohne vorherige Ankündigung entfernt und geändert werden. Wir entfernen CUDA-Versionen, AMIs wenn sie nicht von einer unterstützten Framework-Version verwendet werden.

Kernel
  • Die Kernel-Version wird mit dem folgenden Befehl gepinnt:

    sudo dnf versionlock kernel*
  • Wir empfehlen Benutzern, die Aktualisierung ihrer Kernel-Version zu vermeiden (es sei denn, es liegt ein Sicherheitspatch vor), um die Kompatibilität mit den installierten Treibern und Paketversionen sicherzustellen. Wenn Benutzer dennoch ein Update durchführen möchten, können sie die folgenden Befehle ausführen, um ihre Kernelversionen zu entsperren:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Für jede neue Version von DLAMI wird der neueste verfügbare kompatible Kernel verwendet.

Veröffentlichungsdatum: 2025-07-04

AMI-Name: Deep Learning ARM64 Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250704

Aktualisiert

  • Unterstützung für EC2 Instance P6e- 00 hinzugefügt. GB2 Bitte beachten Sie, dass CUDA>=12.8 auf P6e- 00 unterstützt wird GB2

  • Fügen Sie EFA 1.42.0 hinzu

  • Der Nvidia-Treiber wurde von Version 570.133.20 auf 570.158.01 aktualisiert

  • Der CUDA 12.8-Stack wurde mit NCCL 2.27.5 aktualisiert

Veröffentlichungsdatum: 24.04.2025

AMI-Name: Deep Learning ARM64 Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250424

Aktualisiert

Datum der Veröffentlichung: 2025-04-22

AMI-Name: Deep Learning ARM64 Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250421

Aktualisiert

Datum der Veröffentlichung: 04.04.2025

AMI-Name: Deep Learning ARM64 Base OSS Nvidia-Treiber GPU-AMI (Amazon Linux 2023) 20250404

Aktualisiert

  • Die Kernel-Version wurde von 6.1 auf 6.12 aktualisiert

Datum der Veröffentlichung: 2025-03-03

AMI-Name: Deep Learning ARM64 Base OSS Nvidia-Treiber GPU AMI (Amazon Linux 2023) 20250303

Aktualisiert

  • Nvidia-Treiber von 550.144.03 bis 570.86.15

  • Der Standard-CUDA wurde von 1.4 auf 6 geändert. CUDA12 CUDA12

Hinzugefügt

  • CUDA-Verzeichnis von 12.5 mit kompilierter NCCL-Version CUDA12 2.22.3+ .5 und cuDNN 9.7.1.26

  • CUDA-Verzeichnis von 12.6 mit kompilierter NCCL-Version CUDA12 2.24.3+ .6 und cuDNN 9.7.1.26

  • CUDA-Verzeichnis von 12.8 mit kompilierter NCCL-Version CUDA12 2.25.1+ .8 und cuDNN 9.7.1.26

Veröffentlichungsdatum: 2025-02-14

AMI-Name: Deep Learning ARM64 Base OSS Nvidia-Treiber-GPU-AMI (Amazon Linux 2023) 20250214

Hinzugefügt

  • Erste Version des Deep Learning ARM64 Base OSS DLAMI für Amazon Linux 2023