

 **Unterstützung für die Verbesserung dieser Seite beitragen** 

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link **Diese Seite bearbeiten auf**, der sich im rechten Bereich jeder Seite befindet.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Amazon EKS-Cluster für AI/ML Workloads einrichten
<a name="ml-cluster-setup"></a>

**Tipp**  
 [Melden Sie sich](https://events.eksworkshop.com/workshops/genai/) für bevorstehende Amazon AI/ML EKS-Workshops an.

Dieser Abschnitt führt Sie durch die Erstellung eines Amazon EKS-Clusters, das bereit ist, Inferenz-Workloads auszuführen, einschließlich der Berechnung mit GPUs, des Überwachungsstapels und des Amazon S3 S3-Speichers für Modellgewichte, zusammen mit den erforderlichen AWS IAM-Berechtigungen.

## Übersicht über die Architektur
<a name="_architecture_overview"></a>

Das Setup erstellt die folgende Infrastruktur:
+  **EKS-Cluster mit GPU-enabled Knoten** — Ein Cluster Karpenter-managed NodePool , der G-family GPU-Instanzen mithilfe von Spot-Kapazität mit On-Demand Fallback dynamisch bereitstellt.
+  **Monitoring-Stack** — Prometheus scannt Cluster-, Knoten- und GPU-Metriken und schreibt sie per Fernzugriff in Amazon Managed Service for Prometheus (AMP). Grafana bietet Dashboards zur Visualisierung. Der NVIDIA DCGM Exporter fügt GPU-specific Metriken wie Auslastung, Arbeitsspeicher, Temperatur, Stromverbrauch, NVLink-Bandbreite und Tensoraktivität hinzu.
+  **Modellgewichte S3-Bucket** — Ein Amazon S3 S3-Bucket zum Speichern von Modellgewichten mit einer EKS-Pod-Identity-Zuordnung, die Workload-Pods read/write Zugriff gewährt.

## Rechenoptionen für Cluster
<a name="_cluster_compute_options"></a>

Das Handbuch bietet zwei Pfade für die Einrichtung Ihres Clusters. Wählen Sie einen aus und folgen Sie ihm konsequent bei allen Schritten.
+  **EKS-Automatikmodus** — Ein einziger Befehl stellt einen EKS-Cluster mit aktiviertem EKS-Automatikmodus bereit. Alle erforderlichen Komponenten sind sofort einsatzbereit, darunter Karpenter-based auto-scaling, der EKS-Node-Monitoring-Agent, schnelle Container-Pulls mit SOCI und das NVIDIA-Geräte-Plugin.
+  **Self-managed Karpenter** — Sie installieren und konfigurieren jede Komponente explizit: Karpenter über die automatische Knotenreparatur über das Feature-Gate`eksctl`, den EKS-Node-Monitoring-Agenten als EKS-Add-on und das NVIDIA-Geräte-Plugin über Helm. Sie erstellen auch ein benutzerdefiniertes System`EC2NodeClass`, das die EKS-optimized NVIDIA AL2023-AMIs verwendet und SOCI konfiguriert.

## Was werden Sie einrichten
<a name="_what_youll_set_up"></a>


| Schritt | Description | 
| --- | --- | 
|  **Cluster erstellen**  | Stellen Sie die EKS-Steuerungsebene und die Komponenten auf Clusterebene bereit, die für GPU-Workloads benötigt werden. | 
|  **Erstellen Sie dynamisch bereitgestellte GPU-Knoten**  | Definieren Sie eine dynamische GPU NodePool , die G-family GPU-Instanzen bereitstellt, wenn Workloads geplant sind. | 
|  **Testen Sie mit einem Beispiel-Pod**  | Überprüfen Sie das Setup von Anfang bis Ende, indem Sie einen `nvidia-smi` Pod ausführen, der Karpenter veranlasst, einen GPU-enabled Knoten bereitzustellen. | 
|  **Reservierte Kapazität hinzufügen (optional)**  | Fügen Sie Ihrer Reservierung eine On-Demand Kapazitätsreservierung (ODCR) NodeClass für die Option „Zuerst reserviert“ mit Fallback bei. Spot/On-Demand  | 
|  **Installieren Sie die Überwachung**  | Stellen Sie kube-prometheus-stack (Prometheus \+ Grafana) mit Remote-Write-Funktion auf AMP sowie dem NVIDIA DCGM Exporter für GPU-Metriken bereit. | 
|  **Erstellen Sie einen Bucket für Modellgewichte**  | Erstellen Sie einen S3-Bucket und konfigurieren Sie EKS Pod Identity so, dass Workload-Pods Modellgewichte lesen und schreiben können. | 

## Erste Schritte
<a name="_get_started"></a>

Eine schrittweise Anleitung zur Verwendung der AWS CLI finden Sie unter[Amazon EKS-Cluster für AI/ML Workloads mithilfe von CLIs einrichten](ml-cluster-setup-cli.md).