Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Beobachtbarkeit von Clustern
Um Einblick in die Auslastung der Cluster-Ressourcen zu erhalten, richten Sie Amazon CloudWatch Container Insights und Amazon Managed Grafana ein, um Metriken zu extrahieren und sie auf verschiedenen Dashboards zu visualisieren.
Themen
Einblicke in Amazon CloudWatch Container
Verwenden Sie Amazon CloudWatch Container Insights, um Metriken und Protokolle aus den containerisierten Anwendungen und Microservices auf dem EKS-Cluster, der einem Cluster zugeordnet ist, zu sammeln, zu aggregieren und zusammenzufassen. HyperPod
Amazon CloudWatch Insights sammelt Metriken für Rechenressourcen wie CPU, Arbeitsspeicher, Festplatte und Netzwerk. Container Insights bietet auch Diagnoseinformationen, wie z. B.Fehler beim Container-Neustart, damit Sie Probleme schnell aufdecken und beheben können. Sie können auch CloudWatch Alarme für Metriken einrichten, die Container Insights sammelt.
Eine vollständige Liste der Metriken finden Sie unter Amazon EKS- und Kubernetes Container Insights-Metriken im Amazon EKS-Benutzerhandbuch.
Installieren Sie Container Insights CloudWatch
Cluster-Administratorbenutzer sollten CloudWatch Container Insights gemäß den Anweisungen unter Installieren des CloudWatch Agenten mithilfe des Amazon CloudWatch Observability EKS-Add-ons oder des Helm-Diagramms im CloudWatch Benutzerhandbuch einrichten. Weitere Informationen zum Amazon EKS-Add-on finden Sie auch unter Installieren des Amazon CloudWatch Observability EKS-Add-ons im Amazon EKS-Benutzerhandbuch.
Stellen Sie nach Abschluss der Installation sicher, dass das CloudWatch Observability-Add-on auf der Registerkarte mit dem EKS-Cluster-Add-On sichtbar ist. Es kann einige Minuten dauern, bis das Dashboard geladen wird.
Anmerkung
SageMaker HyperPod benötigt CloudWatch Insight v2.0.1-eksbuild.1 oder höher.

CloudWatch Greifen Sie auf das Container Insights Dashboard
Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/
. -
Wählen Sie Insights und dann Container Insights aus.
-
Wählen Sie den EKS-Cluster aus, der mit dem von Ihnen verwendeten HyperPod Cluster eingerichtet wurde.
-
Sehen Sie sich die Pod/Cluster Level-Metriken an.

Zugriff auf CloudWatch Container-Insights-Logs
Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/
. -
Wählen Sie Logs (Protokolle) und anschließend Log groups (Protokollgruppen) aus.
Wenn Sie die HyperPod Cluster in Amazon CloudWatch Container Insights integriert haben, können Sie im folgenden Format auf die relevanten Protokollgruppen zugreifen:/aws/containerinsights /<eks-cluster-name>/*
. In dieser Protokollgruppe können Sie verschiedene Arten von Protokollen wie Leistungsprotokolle, Hostprotokolle, Anwendungsprotokolle und Datenebenenprotokolle finden und untersuchen.
Richten Sie einen Amazon Managed Grafana-Arbeitsbereich ein
Sie können Amazon Managed Grafana und Amazon Managed Service for Prometheus integrieren SageMaker HyperPod , um eine umfassende Cluster-Observability zu erreichen und diese in verschiedenen Grafana-Dashboards zu visualisieren: dem Kubernetes-Cluster-Monitoring-Dashboard, dem NVIDIA DCGM-Exporter-Dashboard und dem FSx for Lustre-Metrik-Dashboard sowie dem EFA-Metrik-Dashboard.