Ausführung von Jobs auf SageMaker HyperPod Clustern, die von Amazon EKS orchestriert wurden - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ausführung von Jobs auf SageMaker HyperPod Clustern, die von Amazon EKS orchestriert wurden

Die folgenden Themen enthalten Verfahren und Beispiele für den Zugriff auf Rechenknoten und die Ausführung von ML-Workloads auf bereitgestellten SageMaker HyperPod Clustern, die mit Amazon EKS orchestriert wurden. Je nachdem, wie Sie die Umgebung auf Ihrem HyperPod Cluster eingerichtet haben, gibt es viele Möglichkeiten, ML-Workloads auf Clustern auszuführen. HyperPod

Anmerkung

Wenn Jobs über die SageMaker HyperPod CLI oder kubectl ausgeführt werden, HyperPod kann die Rechenauslastung (GPU/CPU-Stunden) über Namespaces (Teams) hinweg verfolgt werden. Diese Metriken liefern Berichte zum Stromverbrauch, die Folgendes bieten:

  • Einblick in den Verbrauch zugewiesener und geliehener Ressourcen

  • Nutzung der Ressourcen durch Teams für Audits (bis zu 180 Tage)

  • Die Kostenzuweisung entspricht den Richtlinien zur Aufgabenverwaltung

Um Nutzungsberichte verwenden zu können, müssen Sie die Infrastruktur für Nutzungsberichte installieren. Wir empfehlen dringend, Task Governance so zu konfigurieren, dass Rechenkontingente durchgesetzt und eine detaillierte Kostenzuweisung ermöglicht wird.

Weitere Informationen zum Einrichten und Generieren von Nutzungsberichten finden Sie unter Berichterstattung über die Computenutzung in. HyperPod

Tipp

Für praktische Erfahrungen und Anleitungen zur Einrichtung und Verwendung eines mit Amazon EKS orchestrierten SageMaker HyperPod Clusters empfehlen wir die Teilnahme an diesem Amazon EKS Support-Workshop. SageMaker HyperPod

Benutzer von Data Scientists können grundlegende Modelle trainieren, indem sie das EKS-Cluster-Set als Orchestrator für den Cluster verwenden. SageMaker HyperPod Wissenschaftler nutzen die SageMaker HyperPod CLI und die nativen kubectl Befehle, um verfügbare SageMaker HyperPod Cluster zu finden, Trainingsjobs (Pods) einzureichen und ihre Workloads zu verwalten. Die SageMaker HyperPod CLI ermöglicht die Einreichung von Jobs mithilfe einer Trainingsjob-Schemadatei und bietet Funktionen für die Jobauflistung, Beschreibung, Stornierung und Ausführung. Wissenschaftler können den Kubeflow Training Operator entsprechend den von ihnen verwalteten Rechenquoten und SageMaker KI-gesteuerten MLflow Rechenquoten für die Verwaltung von HyperPod ML-Experimenten und Trainingsläufen verwenden.