Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Fehlerbehebung beim Amazon SageMaker HyperPod Observability Add-on
Verwenden Sie die folgenden Anleitungen, um häufig auftretende Probleme mit dem Amazon SageMaker HyperPod (SageMaker HyperPod) Observability-Add-on zu lösen.
Behebung fehlender Metriken in Amazon Managed Grafana
Wenn Metriken nicht in Ihren Amazon Managed Grafana-Dashboards angezeigt werden, führen Sie die folgenden Schritte aus, um das Problem zu identifizieren und zu lösen.
Überprüfen Sie die Verbindung zwischen Amazon Managed Service for Prometheus und Amazon Managed Grafana
-
Melden Sie sich bei der Amazon Managed Grafana-Konsole an.
-
Wählen Sie im linken Bereich Alle Arbeitsbereiche aus.
-
Wählen Sie in der Tabelle Workspaces Ihren Workspace aus.
-
Wählen Sie auf der Detailseite des Workspace den Tab Datenquellen aus.
-
Stellen Sie sicher, dass die Amazon Managed Service for Prometheus-Datenquelle vorhanden ist.
-
Überprüfen Sie die Verbindungseinstellungen:
-
Vergewissern Sie sich, dass die Endpunkt-URL korrekt ist.
-
Stellen Sie sicher, dass die IAM-Authentifizierung ordnungsgemäß konfiguriert ist.
-
Wählen Sie Test connection (Verbindung testen) aus. Stellen Sie sicher, dass der Status „Datenquelle funktioniert“ lautet.
-
Überprüfen Sie den Amazon EKS-Add-on-Status
Öffnen Sie die Amazon EKS-Konsole unter https://console.aws.amazon.com/eks/home#/clusters
. -
Wählen Sie Ihren Cluster aus.
-
Wählen Sie die Registerkarte Add-ons.
-
Vergewissern Sie sich, dass das SageMaker HyperPod Observability-Add-on aufgeführt ist und dass sein Status AKTIV ist.
-
Wenn der Status nicht AKTIV ist, kopieren Sie die Fehlermeldung und kontaktieren Sie uns AWS -Support.
Überprüfen Sie die Pod Identity-Zuordnung
Öffnen Sie die Amazon EKS-Konsole unter https://console.aws.amazon.com/eks/home#/clusters
. -
Wählen Sie Ihren Cluster aus.
-
Wählen Sie auf der Seite mit den Cluster-Details die Registerkarte Zugriff aus.
-
Wählen Sie in der Tabelle mit den Pod-Identity-Zuordnungen die Zuordnung aus, die die folgenden Eigenschaftswerte hat:
-
Namespace:
hyperpod-observability
-
Dienstkonto:
hyperpod-observability-operator-otel-collector
-
Zusatzprodukt:
amazon-sagemaker-hyperpod-observability
-
-
Stellen Sie sicher, dass die IAM-Rolle, die dieser Zuordnung zugeordnet ist, über die folgenden Berechtigungen verfügt.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
AWS-Region
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS-Region
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS-Region
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
Überprüfen Sie Amazon Managed Service auf Prometheus-Drosselung
-
Melden Sie sich bei der an AWS Management Console und öffnen Sie die Service Quotas Quotas-Konsole unter https://console.aws.amazon.com/servicequotas/
. -
Suchen Sie im Feld Verwaltete Kontingente nach Amazon Managed Service for Prometheus und wählen Sie es aus.
-
Wählen Sie das Kontingent der Active-Serie pro Workspace aus.
-
Wählen Sie auf der Registerkarte Kontingente auf Ressourcenebene Ihren Amazon Managed Service for Prometheus Workspace aus.
-
Stellen Sie sicher, dass die Auslastung unter Ihrem aktuellen Kontingent liegt.
-
Wenn du das Kontingentlimit erreicht hast, wähle deinen Workspace aus, indem du das Optionsfeld links davon auswählst und dann Erhöhung auf Ressourcenebene beantragen auswählst.
Behebung von Fehlern bei der Installation von Add-ons
Wenn das Observability-Add-on nicht installiert werden kann, gehen Sie wie folgt vor, um das Problem zu diagnostizieren und zu beheben.
Überprüfen Sie den Status der Gesundheitsprüfung
-
Öffnen Sie die Amazon EKS-Konsole unter https://console.aws.amazon.com/eks/home#/clusters
. -
Wählen Sie Ihren Cluster aus.
-
Wählen Sie die Registerkarte Add-ons.
-
Wählen Sie das fehlgeschlagene Add-On aus.
-
Lesen Sie den Abschnitt Gesundheitsprobleme.
-
Wenden Sie sich mit den Problemdetails an den AWS Support.
Überprüfen Sie die Manager-Protokolle
-
Holen Sie sich den Add-On-Manager-Pod:
kubectl get pods -n hyperpod-observability | grep manager
-
Überprüfe die Logs:
kubectl logs -n kube-system
addon-manager-pod-name
Bei dringenden Problemen wenden Sie sich an AWS -Support.