Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Beobachtbarkeit von Clustern und Aufgaben
Es gibt zwei Optionen für die Überwachung SageMaker HyperPod von Clustern:
Das SageMaker HyperPod Observability-Add-on — SageMaker HyperPod bietet ein umfassendes out-of-the-box Dashboard, das Ihnen Einblicke in die Entwicklungsaufgaben und Clusterressourcen von Foundation Model (FM) bietet. Diese einheitliche Observability-Lösung veröffentlicht automatisch wichtige Kennzahlen in Amazon Managed Service for Prometheus und zeigt sie in Amazon Managed Grafana-Dashboards an. Die Dashboards wurden speziell für die FM-Entwicklung optimiert und decken umfassende Informationen zum Zustand der Hardware, zur Ressourcennutzung und zur Leistung auf Aufgabenebene ab. Mit diesem Add-on können Sie Integritäts- und Leistungsdaten von NVIDIA DCGM, Kubernetes-Knotenexportern auf Instanzebene, Elastic Fabric Adapter, integrierten Dateisystemen, Kubernetes, Kueue und Task-Operatoren konsolidieren. APIs SageMaker HyperPod
Amazon CloudWatch Insights — Amazon CloudWatch Insights sammelt Metriken für Rechenressourcen wie CPU, Arbeitsspeicher, Festplatte und Netzwerk. Container Insights bietet auch Diagnoseinformationen, wie z. B.Fehler beim Container-Neustart, damit Sie Probleme schnell aufdecken und beheben können. Sie können auch CloudWatch Alarme für Metriken einrichten, die Container Insights erfasst.