Verwenden Sie den HyperPod Schulungsoperator - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie den HyperPod Schulungsoperator

Der Amazon SageMaker HyperPod Training Operator hilft Ihnen dabei, die Entwicklung generativer KI-Modelle zu beschleunigen, indem er verteilte Schulungen über große GPU-Cluster effizient verwaltet. Es bietet intelligente Funktionen zur Fehlerbehebung, zur Erkennung von Blockierungen und Verwaltungsfunktionen auf Prozessebene, die Trainingsunterbrechungen minimieren und Kosten senken. Im Gegensatz zur herkömmlichen Trainingsinfrastruktur, bei der der Job bei Ausfällen komplett neu gestartet werden muss, implementiert dieser Operator die Wiederherstellung chirurgischer Prozesse, um einen reibungslosen Ablauf Ihrer Trainingsaufgaben zu gewährleisten.

Der Bediener arbeitet auch mit HyperPod den Funktionen zur Gesundheitsüberwachung und Beobachtbarkeit, sodass er in Echtzeit Einblick in die Trainingsausführung erhält und kritische Messwerte wie Verlustspitzen und Durchsatzverschlechterungen automatisch überwacht. Sie können Wiederherstellungsrichtlinien mithilfe einfacher YAML-Konfigurationen ohne Codeänderungen definieren. So können Sie schnell auf Trainingszustände reagieren, die nicht wiederhergestellt werden können, und diese wieder herstellen. Diese Überwachungs- und Wiederherstellungsfunktionen arbeiten zusammen, um eine optimale Trainingsleistung aufrechtzuerhalten und gleichzeitig den betrieblichen Aufwand zu minimieren.

Kueue ist für diesen Schulungsoperator zwar nicht erforderlich, Ihr Clusteradministrator kann es jedoch installieren und konfigurieren, um die Funktionen zur Jobplanung zu verbessern. Weitere Informationen finden Sie in der offiziellen Dokumentation für Kueue.

Anmerkung

Um den Training Operator verwenden zu können, müssen Sie die neueste HyperPod AMI-Version verwenden. Verwenden Sie für das Upgrade den UpdateClusterSoftwareAPI-Vorgang. Wenn Sie HyperPod Task Governance verwenden, muss es sich auch um die neueste Version handeln.

Unterstützte Versionen

Der HyperPod Trainingsoperator funktioniert nur mit bestimmten Versionen von Kubernetes, Kueue und. HyperPod In der folgenden Liste finden Sie die vollständige Liste der kompatiblen Versionen.

Der HyperPod Trainingsoperator ist mit Kueue kompatibel, das Ihr Clusteradministrator für erweiterte Funktionen zur Jobplanung konfigurieren kann. Weitere Informationen finden Sie in der offiziellen Dokumentation zu Kueue.

Voraussetzungen

Um den HyperPod Training Operator nutzen zu können, müssen Sie die folgenden Voraussetzungen erfüllt haben: