Observability für SageMaker HyperPod Amazon-Cluster, orchestriert von Amazon EKS - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Observability für SageMaker HyperPod Amazon-Cluster, orchestriert von Amazon EKS

Um eine umfassende Beobachtbarkeit Ihrer Amazon SageMaker HyperPod (SageMaker HyperPod) -Clusterressourcen und Softwarekomponenten zu erreichen, integrieren Sie den Cluster in Amazon CloudWatch Container Insights, Amazon Managed Service for Prometheus und Amazon Managed Grafana. Diese Tools bieten Einblick in den Zustand des Clusters, die Leistungskennzahlen und die Ressourcennutzung.

Die Integration mit Amazon Managed Service for Prometheus ermöglicht den Export von Metriken zu Ihren HyperPod Cluster-Ressourcen und bietet so Einblicke in deren Leistung, Auslastung und Zustand. Die Integration mit Amazon Managed Grafana ermöglicht die Visualisierung dieser Metriken über verschiedene Grafana-Dashboards, die eine intuitive Oberfläche für die Überwachung und Analyse des Clusterverhaltens bieten. Durch die Nutzung dieser Services erhalten Sie eine zentrale und einheitliche Ansicht Ihres HyperPod Clusters, was die proaktive Überwachung, Fehlerbehebung und Optimierung Ihrer verteilten Trainingsworkloads erleichtert.

Anmerkung

Amazon Managed Service for Prometheus und Amazon Managed Grafana konzentrieren sich zwar CloudWatch auf betriebliche Kennzahlen (z. B. Systemzustand, Ausbildung, Arbeitsleistung), aber SageMaker HyperPod Nutzungsberichte ergänzen Task Governance, um Einblicke in die Finanz- und Ressourcenverantwortung zu geben. In diesen Berichten wird Folgendes erfasst:

  • Computernutzung (GPU/CPU/Neuron Core hours) across namespaces/teams

  • Zuordnung der Kosten für zugewiesene und geliehene Ressourcen

  • Historische Trends (bis zu 180 Tage) zur Prüfung und Optimierung

Weitere Informationen zum Einrichten und Generieren von Nutzungsberichten finden Sie unter Berichterstattung über die Computenutzung in HyperPod.

Tipp

Praktische Beispiele und Lösungen finden Sie auch im Abschnitt Observability im Amazon EKS Support im SageMaker HyperPod Workshop.

Fahren Sie mit den folgenden Themen fort, um die SageMaker HyperPod Cluster-Observability einzurichten.