Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie den HyperPod Schulungsoperator
Der Amazon SageMaker HyperPod Training Operator hilft Ihnen dabei, die Entwicklung generativer KI-Modelle zu beschleunigen, indem er verteilte Schulungen über große GPU-Cluster effizient verwaltet. Es bietet intelligente Funktionen zur Fehlerbehebung, zur Erkennung von Blockierungen und Verwaltungsfunktionen auf Prozessebene, die Trainingsunterbrechungen minimieren und Kosten senken. Im Gegensatz zur herkömmlichen Trainingsinfrastruktur, bei der der Job bei Ausfällen komplett neu gestartet werden muss, implementiert dieser Operator die Wiederherstellung chirurgischer Prozesse, um einen reibungslosen Ablauf Ihrer Trainingsaufgaben zu gewährleisten.
Der Bediener arbeitet auch mit HyperPod den Funktionen zur Gesundheitsüberwachung und Beobachtbarkeit, sodass er in Echtzeit Einblick in die Trainingsausführung erhält und kritische Messwerte wie Verlustspitzen und Durchsatzverschlechterungen automatisch überwacht. Sie können Wiederherstellungsrichtlinien mithilfe einfacher YAML-Konfigurationen ohne Codeänderungen definieren. So können Sie schnell auf Trainingszustände reagieren, die nicht wiederhergestellt werden können, und diese wieder herstellen. Diese Überwachungs- und Wiederherstellungsfunktionen arbeiten zusammen, um eine optimale Trainingsleistung aufrechtzuerhalten und gleichzeitig den betrieblichen Aufwand zu minimieren.
Kueue ist für diesen Schulungsoperator zwar nicht erforderlich, Ihr Clusteradministrator kann es jedoch installieren und konfigurieren, um die Funktionen zur Jobplanung zu verbessern. Weitere Informationen finden Sie in der offiziellen Dokumentation für Kueue
Anmerkung
Um den Training Operator verwenden zu können, müssen Sie die neueste HyperPod AMI-Version verwenden. Verwenden Sie für das Upgrade den UpdateClusterSoftwareAPI-Vorgang. Wenn Sie HyperPod Task Governance verwenden, muss es sich auch um die neueste Version handeln.
Unterstützte Versionen
Der HyperPod Trainingsoperator funktioniert nur mit bestimmten Versionen von Kubernetes, Kueue und. HyperPod In der folgenden Liste finden Sie die vollständige Liste der kompatiblen Versionen.
-
Unterstützte Kubernetes-Versionen — 1.28, 1.29, 1.30, 1.31 oder 1.32
-
Die neueste HyperPod AMI-Version. Verwenden Sie die UpdateClusterSoftwareAPI, um auf die neueste AMI-Version zu aktualisieren.
Der HyperPod Trainingsoperator ist mit Kueue kompatibel, das Ihr Clusteradministrator für erweiterte Funktionen zur Jobplanung konfigurieren kann. Weitere Informationen finden Sie in der offiziellen Dokumentation zu Kueue
Voraussetzungen
Um den HyperPod Training Operator nutzen zu können, müssen Sie die folgenden Voraussetzungen erfüllt haben:
-
Ein HyperPod Cluster mit Amazon EKS-Unterstützung wurde erstellt
-
Richten Sie Ihren HyperPod Cluster mit einer benutzerdefinierten Amazon VPC ein
-
Das neueste AMI wurde auf Ihrem HyperPod Cluster installiert. Weitere Informationen finden Sie unter SageMaker HyperPod AMI-Versionen für Amazon EKS.