Bereitstellen von Modellen auf Amazon SageMaker HyperPod

Amazon geht SageMaker HyperPod jetzt über Schulungen hinaus und bietet eine umfassende Inferenzplattform, die die Flexibilität von Kubernetes mit der operativen Exzellenz von AWS Managed Services kombiniert. Stellen Sie Ihre Modelle für maschinelles Lernen bereit, skalieren und optimieren Sie sie mit Zuverlässigkeit auf Unternehmensniveau und nutzen Sie während des gesamten Modelllebenszyklus dieselbe HyperPod Rechenleistung.

Amazon SageMaker HyperPod bietet flexible Bereitstellungsschnittstellen, mit denen Sie Modelle über mehrere Methoden bereitstellen können, darunter kubectl, Python SDK, Amazon SageMaker Studio UI oder HyperPod CLI. Der Service bietet erweiterte Autoscaling-Funktionen mit dynamischer Ressourcenzuweisung, die sich automatisch an den Bedarf anpasst. Darüber hinaus umfasst er umfassende Beobachtungs- und Überwachungsfunktionen, die wichtige Kennzahlen wie time-to-first-token Latenz und GPU-Auslastung verfolgen, um Sie bei der Leistungsoptimierung zu unterstützen.

Einheitliche Infrastruktur für Training und Inferenz

Maximieren Sie Ihre GPU-Auslastung, indem Sie die Rechenressourcen nahtlos zwischen Trainings- und Inferenz-Workloads verlagern. Dies reduziert die Gesamtbetriebskosten und gewährleistet gleichzeitig die Betriebskontinuität.

Bereitstellungsoptionen für Unternehmen

Stellen Sie Modelle aus mehreren Quellen bereit, darunter Open-Weights- und Gated-Modelle von Amazon SageMaker JumpStart und benutzerdefinierte Modelle von Amazon S3 und Amazon, FSx mit Unterstützung für Inferenzarchitekturen mit einem oder mehreren Knoten.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Topologieorientierte Terminplanung

Einrichtung Ihrer HyperPod Cluster für die Modellbereitstellung