Warum sollten Sie sich für EKS im Bereich KI/ML entscheiden?Wichtige Anwendungsfälle Fallstudien Einsatz von Machine Learning in EKS

Unterstützung für die Verbesserung dieser Seite beitragen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Überblick über künstliche Intelligenz (KI) und Machine Learning (ML) in Amazon EKS

Amazon Elastic Kubernetes Service (EKS) ist eine verwaltete Kubernetes-Plattform, die es Unternehmen ermöglicht, KI- und Machine-Learning-Workloads (ML) mit einzigartiger Flexibilität und Kontrolle bereitzustellen, zu verwalten und zu skalieren. EKS basiert auf dem Open-Source-Kubernetes-Ökosystem und ermöglicht es Ihnen, Ihr vorhandenes Kubernetes-Fachwissen zu nutzen und sich gleichzeitig nahtlos in Open-Source-Tools und -Services zu integrieren. AWS

Ganz gleich, ob Sie groß angelegte Modelle trainieren, Online-Inferenzen in Echtzeit ausführen oder generative KI-Anwendungen einsetzen, EKS bietet die Leistung, Skalierbarkeit und Kosteneffizienz, die Ihre Projekte erfordern. AI/ML

Warum sollten Sie sich für EKS im Bereich KI/ML entscheiden?

EKS ist eine verwaltete Kubernetes-Plattform, mit der Sie komplexe Workloads bereitstellen und verwalten können. AI/ML Sie basiert auf dem Open-Source-Kubernetes-Ökosystem, lässt sich in AWS Dienste integrieren und bietet so die Kontrolle und Skalierbarkeit, die für fortgeschrittene Projekte erforderlich sind. Für Teams, die mit AI/ML Implementierungen noch nicht vertraut sind, werden vorhandene Kubernetes-Fähigkeiten direkt übertragen, was eine effiziente Orchestrierung mehrerer Workloads ermöglicht.

EKS unterstützt alles von Betriebssystemanpassungen bis hin zur Skalierung der Rechenleistung, und seine Open-Source-Grundlage fördert die technologische Flexibilität und bewahrt die Auswahlmöglichkeiten für zukünftige Infrastrukturentscheidungen. Die Plattform bietet die Leistungs- und Optimierungsoptionen, die AI/ML Workloads benötigen, und unterstützt Funktionen wie:

Vollständige Cluster-Kontrolle zur Feinabstimmung von Kosten und Konfigurationen ohne versteckte Abstraktionen.
Latenzzeiten von weniger als einer Sekunde für Echtzeit-Inferenz-Workloads in der Produktion
Erweiterte Anpassungen wie Multi-Instance- und Multi-Cloud-Strategien GPUs und Tuning auf Betriebssystemebene
Möglichkeit, Workloads mithilfe von EKS als einheitlichem Orchestrator für alle Pipelines zu zentralisieren AI/ML

Wichtige Anwendungsfälle

Amazon EKS bietet eine robuste Plattform für eine Vielzahl von AI/ML Workloads und unterstützt verschiedene Technologien und Bereitstellungsmuster:

(Online-) Inferenz in Echtzeit: EKS ermöglicht mithilfe von Tools wie Triton Inference Server und Amazon EC2 Inf1- und Inf2-Instances sofortige Vorhersagen zu eingehenden Daten TorchServe, z. B. zur Betrugserkennung, mit einer Latenz von weniger als KServeeiner Sekunde. Diese Workloads profitieren von der dynamischen Skalierung mit Karpenter und KEDA und nutzen gleichzeitig Amazon EFS für das Modell-Sharding über Pods hinweg. Amazon ECR Pull Through Cache (PTC) beschleunigt Modellaktualisierungen und Bottlerocket-Daten-Volumes mit Amazon EBS-optimierten Volumes gewährleisten schnellen Datenzugriff.
Allgemeines Modelltraining: Organizations nutzen EKS, um komplexe Modelle mit großen Datensätzen über längere Zeiträume zu trainieren, indem sie Kubeflow Training Operator, Ray Serve und Torch Distributed Elastic auf Amazon EC2 P4d- und Amazon Trn1-Instances verwenden. EC2 Diese Workloads werden durch Batch-Planung mit Tools wie Volcano, Yunikorn und Kueue unterstützt. Amazon EFS ermöglicht die gemeinsame Nutzung von Modellprüfpunkten, und Amazon S3 verwaltet Modell import/export mit Lebenszyklusrichtlinien für die Versionsverwaltung.
Retrieval Augmented Generation (RAG)-Pipelines: EKS verwaltet Kundensupport-Chatbots und ähnliche Anwendungen durch die Integration von Abruf- und Generierungsprozessen. Diese Workloads verwenden häufig Tools wie Argo Workflows und Kubeflow für die Orchestrierung, Vektordatenbanken wie Pinecone, Weaviate oder Amazon und stellen Anwendungen Benutzern über den Application Load OpenSearch Balancer Controller (LBC) zur Verfügung. NVIDIA NIM optimiert die GPU-Auslastung, während Prometheus und Grafana die Ressourcennutzung überwachen.
Einsatz generativer KI-Modelle: Unternehmen setzen mithilfe von Ray Serve, vLLM und Triton Inference Server auf Amazon EC2 G5 - und Inferentia-Beschleunigern Dienste zur Erstellung von Inhalten in Echtzeit auf EKS ein, z. B. Text- oder Bildgenerierung. Diese Implementierungen optimieren die Leistung und die Speichernutzung für groß angelegte Modelle. JupyterHubermöglicht iterative Entwicklung, Gradio bietet einfache Weboberflächen und der S3 Mountpoint CSI-Treiber ermöglicht das Mounten von S3-Buckets als Dateisysteme für den Zugriff auf große Modelldateien.
Batch-Inferenz (offline): Unternehmen verarbeiten große Datensätze effizient durch geplante Aufträge AWS Batch oder Volcano. Diese Workloads verwenden häufig Inf1- und EC2 Inf2-Instances für AWS Inferentia-Chips, Amazon EC2 G4dn-Instances für NVIDIA T4 oder c5- und c6i-CPU-Instances GPUs , wodurch die Ressourcennutzung außerhalb der Spitzenzeiten für Analyseaufgaben maximiert wird. Das AWS Neuron SDK und die NVIDIA-GPU-Treiber optimieren die Leistung und ermöglichen gleichzeitig die gemeinsame Nutzung von GPUs. MIG/TS Zu den Speicherlösungen gehören Amazon S3 und Amazon EFS sowie FSx für Lustre mit CSI-Treibern für verschiedene Speicherklassen. Das Modellmanagement nutzt Tools wie Kubeflow Pipelines, Argo Workflows und Ray Cluster, während die Überwachung durch Prometheus, Grafana und benutzerdefinierte Modell-Überwachungstools erfolgt.

Fallstudien

Kunden entscheiden sich aus verschiedenen Gründen für Amazon EKS, beispielsweise zur Optimierung der GPU-Nutzung oder zur Ausführung von Echtzeit-Inferenz-Workloads mit einer Latenz von weniger als einer Sekunde, wie die folgenden Fallstudien zeigen. Eine Liste aller Fallstudien zu Amazon EKS finden Sie unter AWS -Kundenerfolgsgeschichten.

Unitary verarbeitet täglich 26 Millionen Videos mithilfe von KI zur Inhaltsmoderation, was eine hohe Durchsatzleistung und geringe Latenz erfordert. Das Unternehmen hat die Startzeiten von Containern um 80 % reduziert und gewährleistet so eine schnelle Reaktion auf Skalierungsereignisse bei schwankendem Datenverkehr.
Miro, die visuelle Kollaborationsplattform mit 70 Millionen Nutzern weltweit, vermeldete eine Reduzierung der Rechenkosten um 80 % im Vergleich zu ihren zuvor selbst verwalteten Kubernetes-Clustern.
Synthesia, ein Unternehmen, das generative KI-Videoproduktion als Service anbietet, mit dem Kunden anhand von Textvorgaben realistische Videos erstellen können, hat eine 30-fache Verbesserung des Durchsatzes beim ML-Modelltraining erzielt.
Harri, ein Anbieter von HR-Technologie für die Hotellerie, konnte durch die Migration auf AWS -Graviton-Prozessoren eine um 90 % schnellere Skalierung als Reaktion auf Nachfragespitzen erreichen und seine Rechenkosten um 30 % senken.
Ada Support, ein Unternehmen für KI-gestützte Kundenservice-Automatisierung, erzielte eine Senkung der Rechenkosten um 15 % bei einer Steigerung der Recheneffizienz um 30 %.
Snorkel AI, das Unternehmen bei der Erstellung und Anpassung von Basismodellen und großen Sprachmodellen unterstützt, erzielte durch die Implementierung intelligenter Skalierungsmechanismen für seine GPU-Ressourcen Kosteneinsparungen von über 40 %.

Einsatz von Machine Learning in EKS

Um mit der Planung und Nutzung von Plattformen und Workloads für Machine Learning auf EKS in der AWS Cloud zu beginnen, fahren Sie mit dem Ressourcen für den Einstieg in KI/ML in Amazon EKS Abschnitt fort.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Knoten

Echtzeit-Inferenz