Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Bereitstellen von Modellen auf Amazon SageMaker HyperPod
Amazon geht SageMaker HyperPod jetzt über Schulungen hinaus und bietet eine umfassende Inferenzplattform, die die Flexibilität von Kubernetes mit der operativen Exzellenz von AWS Managed Services kombiniert. Stellen Sie Ihre Modelle für maschinelles Lernen bereit, skalieren und optimieren Sie sie mit Zuverlässigkeit auf Unternehmensniveau und nutzen Sie während des gesamten Modelllebenszyklus dieselbe HyperPod Rechenleistung.
Amazon SageMaker HyperPod bietet flexible Bereitstellungsschnittstellen, mit denen Sie Modelle über mehrere Methoden bereitstellen können, darunter kubectl, Python SDK, Amazon SageMaker Studio UI oder HyperPod CLI. Der Service bietet erweiterte Autoscaling-Funktionen mit dynamischer Ressourcenzuweisung, die sich automatisch an den Bedarf anpasst. Darüber hinaus umfasst es umfassende Beobachtungs- und Überwachungsfunktionen, die wichtige Kennzahlen wie time-to-first-token Latenz und GPU-Auslastung verfolgen, um Sie bei der Leistungsoptimierung zu unterstützen.
Anmerkung
Bei der Bereitstellung auf GPU-fähigen Instances können Sie die GPU-Partitionierung mit der Multi-Instance-GPU (MIG) -Technologie verwenden, um mehrere Inferenz-Workloads auf einer einzigen GPU auszuführen. Dies ermöglicht eine bessere GPU-Auslastung und Kostenoptimierung. Weitere Informationen zur Konfiguration der GPU-Partitionierung finden Sie unterVerwenden von GPU-Partitionen in Amazon SageMaker HyperPod.
Einheitliche Infrastruktur für Training und Inferenz
Maximieren Sie Ihre GPU-Auslastung, indem Sie die Rechenressourcen nahtlos zwischen Trainings- und Inferenz-Workloads verlagern. Dies reduziert die Gesamtbetriebskosten und gewährleistet gleichzeitig die Betriebskontinuität.
Bereitstellungsoptionen für Unternehmen
Stellen Sie Modelle aus mehreren Quellen bereit, darunter Open-Weights- und Gated-Modelle von Amazon SageMaker JumpStart und benutzerdefinierte Modelle von Amazon S3 und Amazon, FSx mit Unterstützung für Inferenzarchitekturen mit einem oder mehreren Knoten.
Verwaltetes Tiered Key-Value (KV) -Caching und intelligentes Routing
Beim KV-Caching werden die vorberechneten Schlüssel-Wert-Vektoren nach der Verarbeitung früherer Token gespeichert. Wenn das nächste Token verarbeitet wird, müssen die Vektoren nicht neu berechnet werden. Mithilfe einer zweistufigen Caching-Architektur können Sie einen L1-Cache konfigurieren, der CPU-Speicher für die lokale Wiederverwendung mit geringer Latenz verwendet, und einen L2-Cache, der Redis nutzt, um skalierbare Cache-Sharing auf Knotenebene zu ermöglichen.
Intelligentes Routing analysiert eingehende Anfragen und leitet sie an die Inferenzinstanz weiter, bei der die relevanten zwischengespeicherten Schlüssel-Wert-Paare am wahrscheinlichsten sind. Das System untersucht die Anfrage und leitet sie dann auf der Grundlage einer der folgenden Routing-Strategien weiter:
prefixaware— Nachfolgende Anfragen mit demselben Prompt-Präfix werden an dieselbe Instanz weitergeleitetkvaware— Eingehende Anfragen werden an die Instanz mit der höchsten KV-Cache-Trefferquote weitergeleitet.session— Anfragen aus derselben Benutzersitzung werden an dieselbe Instanz weitergeleitet.roundrobin— Gleichmäßige Verteilung von Anfragen ohne Berücksichtigung des Status des KV-Caches.
Weitere Informationen zur Aktivierung dieser Funktion finden Sie unterKonfigurieren Sie KV-Caching und intelligentes Routing für eine verbesserte Leistung.
Integrierte L2-Cache-Tiered-Storage-Unterstützung für KV-Caching
Aufbauend auf der bestehenden KV-Cache-Infrastruktur wird Tiered Storage HyperPod nun als zusätzliche L2-Backend-Option neben Redis integriert. Mit dem integrierten SageMaker verwalteten Tiered Storage bietet dies eine verbesserte Leistung. Diese Erweiterung bietet Kunden eine skalierbarere und effizientere Option für das Cache-Offloading, was besonders für LLM-Inferenz-Workloads mit hohem Durchsatz von Vorteil ist. Die Integration gewährleistet die Kompatibilität mit bestehenden Servern und Routing-Funktionen des VllM-Modells und bietet gleichzeitig eine bessere Leistung.
Anmerkung
Datenverschlüsselung: KV-Cache-Daten (Aufmerksamkeitsschlüssel und -werte) werden im Ruhezustand unverschlüsselt gespeichert, um die Inferenzlatenz zu optimieren und die Leistung zu verbessern. Bei Workloads mit strengen encryption-at-rest Anforderungen sollten Sie die Verschlüsselung von Eingabeaufforderungen und Antworten auf Anwendungsebene in Betracht ziehen oder das Caching deaktivieren.
Datenisolierung: Wenn verwalteter Tiered Storage als L2-Cache-Backend verwendet wird, teilen sich mehrere Inferenzbereitstellungen innerhalb eines Clusters den Cache-Speicher ohne Isolierung. L2-KV-Cachedaten (Aufmerksamkeitsschlüssel und -werte) aus verschiedenen Bereitstellungen werden nicht getrennt. Für Workloads, die eine Datenisolierung erfordern (Multi-Tenant-Szenarien, unterschiedliche Datenklassifizierungsebenen), sollten Sie die Lösung in separaten Clustern bereitstellen oder dedizierte Redis-Instanzen verwenden.
Bereitstellung mit mehreren Instanzen und automatischem Failover
HyperPod Inference unterstützt die Bereitstellung mit mehreren Instanzen, um die Zuverlässigkeit der Bereitstellung und die Ressourcennutzung zu verbessern. Geben Sie in Ihrer Bereitstellungskonfiguration eine priorisierte Liste von Instance-Typen an, und das System wählt automatisch aus verfügbaren Alternativen aus, wenn Ihr bevorzugter Instance-Typ nicht genügend Kapazität hat. Der Kubernetes-Scheduler verwendet die preferredDuringSchedulingIgnoredDuringExecution Knotenaffinität, um Instanztypen in der Reihenfolge ihrer Priorität zu bewerten. Dabei werden Workloads dem verfügbaren Instanztyp mit der höchsten Priorität zugewiesen und gleichzeitig die Bereitstellung sichergestellt, auch wenn bevorzugte Ressourcen nicht verfügbar sind. Diese Funktion verhindert Bereitstellungsausfälle aufgrund von Kapazitätsengpässen und behält gleichzeitig Ihre Kosten- und Leistungspräferenzen bei und gewährleistet so eine kontinuierliche Serviceverfügbarkeit auch bei Kapazitätsschwankungen im Cluster.
Benutzerdefinierte Knotenaffinität für eine detaillierte Steuerung der Terminplanung
HyperPod Inference unterstützt benutzerdefinierte Knotenaffinität, um die Workload-Platzierung über die Auswahl des Instanztyps hinaus zu steuern. Geben Sie im Feld Kriterien für die Knotenauswahl an, z. B. die Verteilung der Verfügbarkeitszonen, die Filterung nach Kapazitätstypen (auf Abruf oder vor Ort) oder benutzerdefinierte Knotenbezeichnungen. nodeAffinity Das System unterstützt obligatorische Platzierungsbeschränkungen requiredDuringSchedulingIgnoredDuringExecution und optionale Einstellungen durch preferredDuringSchedulingIgnoredDuringExecution und bietet so die volle Kontrolle über die Pod-Planung bei gleichzeitiger Beibehaltung der Flexibilität bei der Bereitstellung.
Anmerkung
Wir erfassen bestimmte routinemäßige Betriebskennzahlen, um die Verfügbarkeit wesentlicher Dienste sicherzustellen. Die Erstellung dieser Metriken erfolgt vollautomatisch und erfordert keine menschliche Überprüfung des zugrundeliegenden Arbeitsaufwands für Modellinferenzen. Diese Metriken beziehen sich auf Bereitstellungsvorgänge, Ressourcenmanagement und Endpunktregistrierung.
Themen
Einrichtung Ihrer HyperPod Cluster für die Modellbereitstellung
Bereitstellen von Grundlagenmodellen und maßgeschneiderten, optimierten Modellen
Richtlinien zur automatischen Skalierung für die Bereitstellung Ihres HyperPod Inferenzmodells
Implementierung der Observability von Inferenzen auf Clustern HyperPod