Ausführung von Echtzeit-Online-Inferenz-Workloads in Amazon EKS - Amazon EKS

Unterstützung für die Verbesserung dieser Seite beitragen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ausführung von Echtzeit-Online-Inferenz-Workloads in Amazon EKS

Tipp

Melden Sie sich für bevorstehende Amazon AI/ML EKS-Workshops an.

Dieser Abschnitt soll Ihnen dabei helfen, Echtzeit-Online-Inferenz-Workloads in Amazon Elastic Kubernetes Service (EKS) bereitzustellen und zu betreiben. Sie finden Anleitungen zum Aufbau optimierter Cluster mit GPU-beschleunigten Knoten, zur Integration von AWS Services für Speicher und automatische Skalierung, zur Bereitstellung von Beispielmodellen zur Validierung und zu wichtigen architektonischen Überlegungen wie der Entkopplung von CPU- und GPU-Aufgaben, der Auswahl geeigneter AMIs Instance-Typen und der Sicherstellung der Verfügbarkeit von Inferenzendpunkten mit geringer Latenz.