Verwenden Sie EKS-optimierte beschleunigte AMIs GPU-Instanzen - Amazon EKS

Unterstützung für die Verbesserung dieser Seite beitragen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie EKS-optimierte beschleunigte AMIs GPU-Instanzen

Amazon EKS unterstützt EKS-optimiertes Amazon Linux und AMIs Bottlerocket für GPU-Instances. Die EKS-optimierten Accelerated AMIs vereinfachen die Ausführung von KI- und ML-Workloads in EKS-Clustern, indem sie vorgefertigte, validierte Betriebssystem-Images für den beschleunigten Kubernetes-Stack bereitstellen. Zusätzlich zu den Kernkomponenten von Kubernetes, die im Standard EKS-Optimized enthalten sind, enthalten die EKS-optimierten Accelerated die Kernelmodule und Treiber AMIs, die für den Betrieb der NVIDIA-GPU und -Instanzen sowie der GPU G Inferentia- und P EC2 Trainium-Instances in EKS-Clustern erforderlich AMIs sind. AWS EC2

Die folgende Tabelle zeigt die unterstützten GPU-Instance-Typen für jede EKS-optimierte beschleunigte AMI-Variante. Die neuesten Updates der AMI-Varianten finden Sie in den EKS-optimierten AL2023-Versionen und Bottlerocket-Versionen unter GitHub .

EKS AMI-Variante EC2 Instanztypen

AL2023 x86_64 NVIDIA

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, g6f, g6f, g6f, g6f, g5dn

AL2023 ARM NVIDIA

p6e-gb200, 5g

AL2023 x86_64 Neuron

inf1, inf2, trn1, trn2

Flaschenrakete x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6e, g6f, gr6f, g6f, g6f, g6f, g5, g4dn

Flaschenrakete aarch64/arm64 aws-k8s-nvidia

g 5 g

Flaschenrakete x86_64 aws-k8s

inf1, inf2, trn1, trn2

EKS-optimiertes NVIDIA AMIs

Durch die Verwendung von EKS-optimiertem NVIDIA AMIs stimmen Sie der Cloud-Endbenutzer-Lizenzvereinbarung (EULA) von NVIDIA zu.

Die neueste EKS-optimierte NVIDIA-Version finden Sie unter und. AMIs Rufen Sie das empfohlene Amazon Linux AMI ab IDs Empfohlene Bottlerocket-AMI-IDs abrufen

Wenn Sie Amazon Elastic Fabric Adaptor (EFA) mit dem EKS-optimierten AL2 023 oder Bottlerocket NVIDIA verwenden AMIs, müssen Sie das EFA-Geräte-Plugin separat installieren. Weitere Informationen finden Sie unter Ausführung von Machine-Learning-Trainings in Amazon EKS mit Elastic Fabric Adapter.

AL2EKS 023 NVIDIA AMIs

Wenn Sie den NVIDIA-GPU-Operator mit der EKS-optimierten AL2 023 NVIDIA verwenden AMIs, müssen Sie die Installation des Treibers und des Toolkits durch den Operator deaktivieren, da diese bereits im EKS enthalten sind. AMIs Die für EKS optimierten AL2 023 NVIDIA enthalten AMIs weder das NVIDIA Kubernetes-Geräte-Plugin noch den NVIDIA DRA-Treiber, und diese müssen separat installiert werden. Weitere Informationen finden Sie unter Installieren Sie das NVIDIA Kubernetes-Geräte-Plugin.

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten AMIs umfasst die EKS-optimierte AL2 023 NVIDIA die folgenden Komponenten.

  • NVIDIA-Treiber

  • NVIDIA CUDA-Benutzermodus-Treiber

  • NVIDIA-Container-Toolkit

  • NVIDIA-Fabric-Manager

  • NVIDIA blieb hartnäckig

  • NVIDIA IMEX-Treiber

  • NVLink NVIDIA-Subnetzmanager

  • EFA minimal (Kernelmodul und RDMA-Core)

Einzelheiten zum NVIDIA CUDA-Benutzermodus-Treiber und zum CUDA, der in Anwendungscontainern runtime/libraries verwendet wird, finden Sie in der NVIDIA-Dokumentation. Bei der von angezeigten CUDA-Version nvidia-smi handelt es sich um die Version des NVIDIA CUDA-Benutzermodus-Treibers, der auf dem Host installiert ist und mit dem in Anwendungscontainern verwendeten CUDA runtime/libraries kompatibel sein muss.

Die für EKS optimierte Version AL2 023 NVIDIA AMIs unterstützt den Kernel 6.12 für die Kubernetes-Versionen 1.33 und höher und die NVIDIA-Treiberversion 580 für alle Kubernetes-Versionen. Für die Verwendung von CUDA 13+ ist der NVIDIA 580-Treiber erforderlich.

Einzelheiten zu den Komponentenversionen, die in der enthalten sind, finden Sie in den EKS-optimierten AL2 023-Versionen unter GitHub . AMIs Einzelheiten zur AMIs Konfiguration der NVIDIA-Abhängigkeiten durch das EKS AL2 023 NVIDIA AMI-Installationsskript und das Kernelladeskript finden Sie im EKS 023 NVIDIA AMI-Installationsskript. Sie können die Liste der installierten Pakete und ihrer Versionen auf einer laufenden EC2 Instance mit dem dnf list installed Befehl finden.

Wenn Sie eine benutzerdefinierte Version AMIs mit EKS-Optimized AMIs als Basis erstellen, wird die Ausführung eines Betriebssystem-Upgrades nicht empfohlen oder unterstützt (z. dnf upgrade) oder eines der Kubernetes- oder GPU-Pakete aktualisieren, die im EKS-optimierten Paket enthalten sind AMIs, da dadurch die Komponentenkompatibilität beeinträchtigt werden kann. Wenn Sie das Betriebssystem oder die Pakete, die in EKS-Optimized enthalten sind, aktualisieren, wird empfohlen AMIs, vor der Bereitstellung in der Produktion gründliche Tests in einer Entwicklungs- oder Staging-Umgebung durchzuführen.

Bei der Erstellung benutzerdefinierter GPU-Instanzen empfiehlt es sich, AMIs AMIs für jeden Instance-Typ, jede Generation und Familie, die Sie ausführen möchten, separate benutzerdefinierte Instances zu erstellen. Die für EKS optimierten beschleunigten AMIs Systeme installieren Treiber und Pakete selektiv zur Laufzeit, basierend auf der Generation und Familie des zugrunde liegenden Instance-Typs. Weitere Informationen finden Sie in den EKS AMI-Skripts für Installation und Laufzeit.

EKS Bottlerocket NVIDIA AMIs

Wenn Sie den NVIDIA-GPU-Operator mit dem EKS-optimierten Bottlerocket NVIDIA verwenden AMIs, müssen Sie die Operator-Installation des Treibers, des Toolkits und des Geräte-Plugins deaktivieren, da diese bereits im EKS enthalten sind. AMIs

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten umfasst das EKS-optimierte Bottlerocket NVIDIA AMIs die folgenden Komponenten. Die minimalen Abhängigkeiten für EFA (Kernelmodul und RDMA-Core) sind in allen Bottlerocket-Varianten installiert.

  • NVIDIA Kubernetes-Geräte-Plugin

  • NVIDIA-Treiber

  • NVIDIA CUDA-Benutzermodus-Treiber

  • NVIDIA-Container-Toolkit

  • NVIDIA-Fabric-Manager

  • NVIDIA blieb hartnäckig

  • NVIDIA IMEX-Treiber

  • NVLink NVIDIA-Subnetzmanager

  • NVIDIA MIG-Manager

Einzelheiten zum NVIDIA CUDA-Benutzermodus-Treiber und zum CUDA, der in Anwendungscontainern runtime/libraries verwendet wird, finden Sie in der NVIDIA-Dokumentation. Bei der von angezeigten CUDA-Version nvidia-smi handelt es sich um die Version des NVIDIA CUDA-Benutzermodus-Treibers, der auf dem Host installiert ist und mit dem in Anwendungscontainern verwendeten CUDA runtime/libraries kompatibel sein muss.

Einzelheiten zu den installierten Paketen und ihren Versionen finden Sie in den Bottlerocket-Versionsinformationen in der Bottlerocket-Dokumentation. Das EKS-optimierte Bottlerocket NVIDIA AMIs unterstützt Kernel 6.12 für Kubernetes-Versionen 1.33 und höher und die NVIDIA-Treiberversion 580 für Kubernetes-Versionen 1.34 und höher. Für die Verwendung von CUDA 13+ ist der NVIDIA 580-Treiber erforderlich.

EKS-optimiertes Neuron AMIs

Einzelheiten zur Ausführung von Trainings- und Inferenz-Workloads mithilfe von Neuron mit Amazon EKS finden Sie in den folgenden Referenzen:

Das neueste EKS-optimierte Neuron finden Sie unter und. AMIs Rufen Sie das empfohlene Amazon Linux AMI ab IDs Empfohlene Bottlerocket-AMI-IDs abrufen

Wenn Sie Amazon Elastic Fabric Adaptor (EFA) mit dem EKS-optimierten AL2 023 oder Bottlerocket Neuron verwenden AMIs, müssen Sie das EFA-Geräte-Plugin separat installieren. Weitere Informationen finden Sie unter Ausführung von Machine-Learning-Trainings in Amazon EKS mit Elastic Fabric Adapter.

AL2EKS 023 Neuron AMIs

Die EKS-optimierten AL2 023 Neuron enthalten AMIs weder das Neuron Kubernetes-Geräte-Plugin noch die Neuron Kubernetes-Scheduler-Erweiterung, und diese müssen separat installiert werden. Weitere Informationen finden Sie unter Installieren Sie das Neuron Kubernetes-Geräte-Plugin.

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten AMIs umfasst das EKS-optimierte AL2 023 Neuron die folgenden Komponenten.

  • Neuronentreiber () aws-neuronx-dkms

  • Werkzeuge für Neuronen () aws-neuronx-tools

  • EFA minimal (Kernelmodul und RDMA-Core)

Einzelheiten zur AMIs Konfiguration der Neuron-Abhängigkeiten durch EKS AL2 023 Neuron AMI finden Sie im EKS 023 Neuron AMI-Installationsskript. In den für EKS optimierten AL2023-Versionen finden Sie Informationen GitHub zu den Komponentenversionen, die in der enthalten sind. AMIs Sie können die Liste der installierten Pakete und ihrer Versionen auf einer laufenden EC2 Instanz mit dem Befehl finden. dnf list installed

EKS Bottlerocket Neuron AMIs

Die Standard-Bottlerocket-Varianten (aws-k8s) beinhalten die Neuron-Abhängigkeiten, die automatisch erkannt und geladen werden, wenn sie auf Inferentia- oder Trainium-Instances ausgeführt werden. AWS EC2

Die EKS-optimierten Bottlerocket enthalten weder das Neuron Kubernetes-Geräte-Plugin noch die Neuron Kubernetes-Scheduler-Erweiterung, und diese AMIs müssen separat installiert werden. Weitere Informationen finden Sie unter Installieren Sie das Neuron Kubernetes-Geräte-Plugin.

Zusätzlich zu den standardmäßigen EKS AMI-Komponenten umfasst das EKS-optimierte Bottlerocket Neuron AMIs die folgenden Komponenten.

  • Neuronentreiber () aws-neuronx-dkms

  • EFA minimal (Kernelmodul und RDMA-Core)

Wenn Sie das EKS-optimierte Bottlerocket AMIs mit Neuron-Instances verwenden, muss Folgendes in den Bottlerocket-Benutzerdaten konfiguriert werden. Diese Einstellung ermöglicht es dem Container, den Besitz des bereitgestellten Neuron-Geräts auf der Grundlage der in der Workload-Spezifikation angegebenen Werte und zu übernehmen. runAsUser runAsGroup Weitere Informationen zur Neuron-Unterstützung in Bottlerocket finden Sie in der Readme-Datei für Schnellstart auf EKS unter. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Informationen zur Neuron-Treiberversion, die im EKS-optimierten Bottlerocket enthalten ist, finden Sie im Bottlerocket-Kernel-Kit-Changelog. AMIs