Ressourcen für den Einstieg in KI/ML in Amazon EKS - Amazon EKS

Unterstützung für die Verbesserung dieser Seite beitragen

Um zu diesem Benutzerhandbuch beizutragen, klicken Sie auf den Link Diese Seite auf GitHub bearbeiten, der sich im rechten Bereich jeder Seite befindet.

Ressourcen für den Einstieg in KI/ML in Amazon EKS

Für den Einstieg mit Machine Learning in EKS wählen Sie zunächst aus diesen präskriptiven Mustern aus, um schnell einen EKS-Cluster sowie ML-Software und -Hardware für die Ausführung von ML-Workloads bereitzustellen.

Workshops

Generative KI in Amazon EKS Workshop

Erfahren Sie mehr über die ersten Schritte mit Anwendungen großer Sprachmodelle (LLM) und Inferenz in Amazon EKS. Erfahren Sie, wie Sie LLM-Workloads in Produktionsqualität bereitstellen und verwalten können. In praktischen Übungen lernen Sie, wie Sie Amazon EKS mit AWS-Services und Open-Source-Tools nutzen können, um zuverlässige LLM-Lösungen zu erstellen. Die Workshop-Umgebung stellt alle erforderlichen Infrastrukturen und Tools zur Verfügung, sodass Sie sich ganz auf das Lernen und die Umsetzung konzentrieren können.

Generative KI in Amazon EKS unter Verwendung von Neuron

Erfahren Sie mehr über die ersten Schritte mit Anwendungen großer Sprachmodelle (LLM) und Inferenz in Amazon EKS. Erfahren Sie, wie Sie produktionsreife LLM-Workloads bereitstellen und verwalten, fortschrittliche RAG-Muster mit Vektordatenbanken implementieren und datengestützte LLM-Anwendungen mit Open-Source-Frameworks erstellen. In praktischen Übungen lernen Sie, wie Sie Amazon EKS mit AWS-Services und Open-Source-Tools nutzen können, um zuverlässige LLM-Lösungen zu erstellen. Die Workshop-Umgebung stellt alle erforderlichen Infrastrukturen und Tools zur Verfügung, sodass Sie sich ganz auf das Lernen und die Umsetzung konzentrieren können.

Bewährte Methoden

Die KI/ML-bezogenen Themen im Leitfaden für bewährte Methoden für Amazon EKS bieten detaillierte Empfehlungen zu den folgenden Bereichen zur Optimierung Ihrer KI/ML-Workloads in Amazon EKS.

KI/ML-Rechenleistung und Autoscaling

Dieser Abschnitt beschreibt bewährte Methoden zur Optimierung von KI/ML-Rechenleistung und automatischer Skalierung in Amazon EKS, wobei der Schwerpunkt auf GPU-Ressourcenmanagement, Knotenausfallsicherheit und Anwendungsskalierung liegt. Er bietet Strategien wie die Planung von Workloads mit bekannten Kennzeichnungen und Knoten-Affinität, die Verwendung von ML-Kapazitätsblöcken oder On-Demand-Kapazitätsreservierungen sowie die Implementierung von Knoten-Zustandsprüfungen mit Tools wie dem EKS-Knoten-Überwachungsagent.

KI/ML-Netzwerke

In diesem Abschnitt werden bewährte Methoden zur Optimierung von KI/ML-Netzwerken in Amazon EKS beschrieben, um die Leistung und Skalierbarkeit zu verbessern. Dazu gehören Strategien wie die Auswahl von Instances mit höherer Netzwerkbandbreite oder Elastic Fabric Adapter (EFA) für verteiltes Training, die Installation von Tools wie MPI und NCCL sowie die Aktivierung der Präfix-Delegierung, um die Anzahl der IP-Adressen zu erhöhen und die Startzeiten von Pods zu verbessern.

KI/ML-Sicherheit

Dieser Abschnitt konzentriert sich auf die Sicherung der Datenspeicherung und die Gewährleistung der Compliance für KI-/ML-Workloads in Amazon EKS. Dies beinhaltet Praktiken wie die Verwendung von Amazon S3 mit AWS Key Management Service (KMS) für die serverseitige Verschlüsselung (SSE-KMS), die Konfiguration von Buckets mit regionalen KMS-Schlüsseln und S3-Bucket-Schlüsseln zur Kostensenkung, die Gewährung von IAM-Berechtigungen für KMS-Aktionen wie die Entschlüsselung für EKS-Pods und die Überprüfung mit AWS-CloudTrail-Protokollen.

KI/ML-Speicher

Dieser Abschnitt enthält bewährte Methoden zur Optimierung der Speicherung in KI-/ML-Workloads in Amazon EKS. Hierzu zählen beispielsweise die Bereitstellung von Modellen mithilfe von CSI-Treibern zum Einbinden von Services wie S3, FSx für Lustre oder EFS als persistente Volumes, die Auswahl des Speichers basierend auf den Anforderungen der Workload (z.BB. FSx für Lustre für verteiltes Training mit Optionen wie Scratch-SSD oder Persistent-SSD) und die Aktivierung von Features wie Datenkomprimierung und Striping.

KI/ML-Beobachtbarkeit

Dieser Abschnitt befasst sich mit der Überwachung und Optimierung der GPU-Auslastung für KI-/ML-Workloads in Amazon EKS, um die Effizienz zu steigern und Kosten zu senken. Dazu gehören Strategien wie die Ermittlung hoher GPU-Auslastung mit Tools wie CloudWatch Container Insights und dem in Prometheus und Grafana integrierten DCGM-Exporter von NVIDIA sowie Metriken, deren Analyse wir für Ihre KI-/ML-Workloads empfehlen.

KI/ML-Leistung

Dieser Abschnitt konzentriert sich auf die Verbesserung der Anwendungsskalierung und -leistung für KI-/ML-Workloads in Amazon EKS durch Container-Image-Verwaltung und Startup-Optimierung. Dazu gehören Verfahren wie die Verwendung kleiner, leichtgewichtiger Basis-Images oder AWS-Deep-Learning-Container mit mehrstufigen Entwicklungen, das Vorladen von Images über EBS-Snapshots oder das vorab Abrufen in den Laufzeit-Cache mithilfe von DaemonSets oder Bereitstellungen.

Referenzarchitekturen

Erkunden Sie diese GitHub-Repositorys, um Referenzarchitekturen, Beispiel-Code und Service-Programme für die Implementierung von verteiltem Training und Inferenz für KI-/ML-Workloads in Amazon EKS und anderen AWS-Services zu finden.

Verteiltes AWSome-Training

Dieses Repository bietet eine Sammlung von bewährten Methoden, Referenzarchitekturen, Beispielen für das Modelltraining und Service-Programmen für das Training großer Modelle in AWS. Es unterstützt verteiltes Training mit Amazon EKS, einschließlich CloudFormation-Vorlagen für EKS-Cluster, benutzerdefinierte AMI- und Container-Entwicklungen, Testfälle für Frameworks wie PyTorch (DDP/FSDP, MegatronLM, NeMo) und JAX sowie Tools für Validierung, Beobachtbarkeit und Leistungsüberwachung wie EFA Prometheus Exporter und Nvidia Nsight Systems.

AWSome-Inferenz

Dieses Repository bietet Referenzarchitekturen und Testfälle zur Optimierung von Inferenzlösungen in AWS, mit Schwerpunkt auf Amazon EKS und beschleunigten EC2-Instances. Es beinhaltet Infrastruktur-Einrichtungen für VPC- und EKS-Cluster, Projekte für Frameworks wie NVIDIA NIMs, TensorRT-LLM, Triton Inference Server und RayService, mit Beispielen für Modelle wie Llama3-8B und Llama 3.1 405B. Bietet Multi-Node-Bereitstellungen mit K8s LeaderWorkerSet, EKS-Autoscaling, Multi-Instance-GPUs (MIG) und Anwendungsfälle aus der Praxis, wie beispielsweise einen Audio-Bot für ASR, Inferenz und TTS.

Tutorials

Wenn Sie an der Einrichtung von Machine-Learning-Plattformen und -Frameworks in EKS interessiert sind, sehen Sie sich die in diesem Abschnitt beschriebenen Tutorials an. Diese Tutorials decken alles ab, von Mustern für die optimale Nutzung von GPU-Prozessoren über die Auswahl von Modellierungs-Tools bis hin zur Entwicklung von Frameworks für spezialisierte Branchen.

Entwicklung generativer KI-Plattformen in EKS

Spezialisierte generative KI-Frameworks in EKS ausführen

NVIDIA-GPU-Leistung für ML in EKS maximieren

Video-Codierungs-Workloads in EKS ausführen

Beschleunigtes Laden von Images für Inferenz-Workloads

Überwachung von ML-Workloads