Unterstützung für die Verbesserung dieser Seite beitragen
Um zu diesem Benutzerhandbuch beizutragen, klicken Sie auf den Link Diese Seite auf GitHub bearbeiten, der sich im rechten Bereich jeder Seite befindet.
Überblick über künstliche Intelligenz (KI) und Machine Learning (ML) in Amazon EKS
Amazon Elastic Kubernetes Service (EKS) ist eine verwaltete Kubernetes-Plattform, die es Unternehmen ermöglicht, KI- und Machine-Learning-Workloads (ML) mit einzigartiger Flexibilität und Kontrolle bereitzustellen, zu verwalten und zu skalieren. EKS basiert auf der Open-Source-Umgebung Kubernetes und ermöglicht es Ihnen, Ihr vorhandenes Kubernetes-Fachwissen zu nutzen und gleichzeitig eine nahtlose Integration mit Open-Source-Tools und AWS-Services zu erreichen.
Unabhängig davon, ob Sie groß angelegte Modelle trainieren, Echtzeit-Online-Inferenzen durchführen oder generative KI-Anwendungen bereitstellen, EKS bietet die Leistung, Skalierbarkeit und Kosteneffizienz, die Ihre KI-/ML-Projekte erfordern.
Warum sollten Sie sich für EKS im Bereich KI/ML entscheiden?
EKS ist eine verwaltete Kubernetes-Plattform, die Sie bei der Bereitstellung und Verwaltung komplexer KI/ML-Workloads unterstützt. Sie basiert auf die Open-Source-Kubernetes-Umgebung, lässt sich in AWS-Services integrieren und bietet die für anspruchsvolle Projekte erforderliche Kontrolle und Skalierbarkeit. Für Teams, die noch keine Erfahrung mit KI/ML-Bereitstellungen haben, lassen sich vorhandene Kubernetes-Kenntnisse direkt übertragen, sodass mehrere Workloads effizient orchestriert werden können.
EKS unterstützt alles von Betriebssystemanpassungen bis hin zur Skalierung der Rechenleistung, und seine Open-Source-Grundlage fördert die technologische Flexibilität und bewahrt die Auswahlmöglichkeiten für zukünftige Infrastrukturentscheidungen. Die Plattform bietet die für KI-/ML-Workloads erforderlichen Leistungs- und Optimierungsoptionen und unterstützt Features wie:
-
Vollständige Cluster-Kontrolle zur Feinabstimmung von Kosten und Konfigurationen ohne versteckte Abstraktionen.
-
Latenzzeiten von weniger als einer Sekunde für Echtzeit-Inferenz-Workloads in der Produktion
-
Erweiterte Anpassungen wie Multi-Instance-GPUs, Multi-Cloud-Strategien und Optimierungen auf Betriebssystemebene
-
Möglichkeit zur Zentralisierung von Workloads mithilfe von EKS als einheitlichem Orchestrator für KI-/ML-Pipelines
Wichtige Anwendungsfälle
Amazon EKS bietet eine zuverlässige Plattform für eine Vielzahl von KI-/ML-Workloads und unterstützt verschiedene Technologien und Bereitstellungsmuster:
-
Echtzeit-Inferenz (online): EKS ermöglicht sofortige Prognosen zu eingehenden Daten, beispielsweise zur Betrugserkennung, mit einer Latenz von weniger als einer Sekunde. Dies wird durch den Einsatz von Tools wie TorchServe, Triton Inference Server
und KServe in Amazon EC2 Inf1 und Inf2 -Instances erreicht. Diese Workloads profitieren von der dynamischen Skalierung mit Karpenter und KEDA und nutzen gleichzeitig Amazon EFS für das Modell-Sharding über Pods hinweg. Amazon ECR Pull Through Cache (PTC) beschleunigt Modellaktualisierungen und Bottlerocket -Daten-Volumes mit Amazon EBS-optimierten Volumes gewährleisten schnellen Datenzugriff. -
Allgemeines Modelltraining: Organisationen nutzen EKS, um komplexe Modelle über längere Zeiträume hinweg anhand großer Datensätze zu trainieren. Dazu verwenden sie den Kubeflow Training Operator (KRO)
, Ray Serve und Torch Distributed Elastic in Amazon EC2 P4d und Amazon EC2 Trn1 -Instances. Diese Workloads werden durch Batch-Planung mit Tools wie Volcano , Yunikorn und Kueue unterstützt. Amazon EFS ermöglicht die gemeinsame Nutzung von Modell-Kontrollpunkten, und Amazon S3 übernimmt den Import/Export von Modellen mit Lebenszyklusrichtlinien für die Versionsverwaltung. -
Retrieval Augmented Generation (RAG)-Pipelines: EKS verwaltet Kundensupport-Chatbots und ähnliche Anwendungen durch die Integration von Abruf- und Generierungsprozessen. Diese Workloads verwenden häufig Tools wie Argo Workflows
und Kubeflow zur Orchestrierung, Vektordatenbanken wie Pinecone , Weaviate oder Amazon OpenSearch und stellen Benutzern Anwendungen über den Application Load Balancer Controller (LBC) zur Verfügung. NVIDIA NIM optimiert die GPU-Auslastung, während Prometheus und Grafana die Ressourcennutzung überwachen. -
Bereitstellung generativer KI-Modelle: Unternehmen stellen auf EKS Service zur Inhaltserstellung in Echtzeit bereit, beispielsweise zur Text- oder Image-Generierung, und verwenden dazu Ray Serve
, vLLM und Triton Inference Server in Amazon EC2 G5 - und Inferentia -Beschleunigern. Diese Bereitstellungen optimieren die Leistung und Speichernutzung für groß angelegte Modelle. JupyterHub ermöglicht iterative Entwicklung, Gradio bietet einfache Webschnittstellen und der S3-Mountpoint CSI-Treiber ermöglicht das Mounten von S3-Buckets als Dateisysteme für den Zugriff auf große Modelldateien. -
Batch-Inferenz (offline): Unternehmen verarbeiten große Datensätze effizient durch geplante Aufträge AWS Batch oder Volcano
. Diese Workloads nutzen oft Inf1 und Inf2 EC2-Instances für AWS Inferentia -Chips, Amazon EC2 G4dn -Instances für NVIDIA-T4-GPUs, oder c5 und c6i CPU-Instances, um die Ressourcennutzung während der Nebenzeiten für Analytik-Aufgaben zu maximieren. Das AWS-Neuron-SDK und die NVIDIA-GPU-Treiber optimieren die Leistung, während MIG/TS die gemeinsame Nutzung von GPUs ermöglicht. Zu den Speicherlösungen gehören Amazon S3 und Amazon EFS sowie FSx für Lustre mit CSI-Treibern für verschiedene Speicherklassen. Das Modellmanagement nutzt Tools wie Kubeflow Pipelines , Argo Workflows und Ray Cluster , während die Überwachung durch Prometheus, Grafana und benutzerdefinierte Modell-Überwachungstools erfolgt.
Fallstudien
Kunden entscheiden sich aus verschiedenen Gründen für Amazon EKS, beispielsweise zur Optimierung der GPU-Nutzung oder zur Ausführung von Echtzeit-Inferenz-Workloads mit einer Latenz von weniger als einer Sekunde, wie die folgenden Fallstudien zeigen. Eine Liste aller Fallstudien zu Amazon EKS finden Sie unter AWS-Kundenerfolgsgeschichten
-
Unitary
verarbeitet täglich 26 Millionen Videos mithilfe von KI zur Inhaltsmoderation, was eine hohe Durchsatzleistung und geringe Latenz erfordert. Das Unternehmen hat die Startzeiten von Containern um 80 % reduziert und gewährleistet so eine schnelle Reaktion auf Skalierungsereignisse bei schwankendem Datenverkehr. -
Miro
, die visuelle Kollaborationsplattform mit 70 Millionen Nutzern weltweit, vermeldete eine Reduzierung der Rechenkosten um 80 % im Vergleich zu ihren zuvor selbst verwalteten Kubernetes-Clustern. -
Synthesia
, ein Unternehmen, das generative KI-Videoproduktion als Service anbietet, mit dem Kunden anhand von Textvorgaben realistische Videos erstellen können, hat eine 30-fache Verbesserung des Durchsatzes beim ML-Modelltraining erzielt. -
Harri
, ein Anbieter von HR-Technologie für die Hotellerie, konnte durch die Migration auf AWS-Graviton-Prozessoren eine um 90 % schnellere Skalierung als Reaktion auf Nachfragespitzen erreichen und seine Rechenkosten um 30 % senken. -
Ada Support
, ein Unternehmen für KI-gestützte Kundenservice-Automatisierung, erzielte eine Senkung der Rechenkosten um 15 % bei einer Steigerung der Recheneffizienz um 30 %. -
Snorkel AI
, das Unternehmen bei der Erstellung und Anpassung von Basismodellen und großen Sprachmodellen unterstützt, erzielte durch die Implementierung intelligenter Skalierungsmechanismen für seine GPU-Ressourcen Kosteneinsparungen von über 40 %.
Einsatz von Machine Learning in EKS
Um mit der Planung und Nutzung von Machine-Learning-Plattformen und -Workloads in EKS in der AWS Cloud zu beginnen, fahren Sie mit Abschnitt Ressourcen für den Einstieg in KI/ML in Amazon EKS fort.