Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Résolution des problèmes liés au module complémentaire SageMaker HyperPod d'observabilité Amazon
Suivez les instructions suivantes pour résoudre les problèmes courants liés au module complémentaire d'observabilité Amazon SageMaker HyperPod (SageMaker HyperPod).
Résolution des problèmes de métriques manquantes dans Amazon Managed Grafana
Si les statistiques n'apparaissent pas dans vos tableaux de bord Amazon Managed Grafana, effectuez les étapes suivantes pour identifier et résoudre le problème.
Vérifiez la connexion Amazon Managed Service pour Prometheus-Amazon Managed Grafana
-
Connectez-vous à la console Amazon Managed Grafana.
-
Dans le volet de gauche, sélectionnez Tous les espaces de travail.
-
Dans le tableau Espaces de travail, choisissez votre espace de travail.
-
Sur la page de détails de l'espace de travail, choisissez l'onglet Sources de données.
-
Vérifiez que la source de données Amazon Managed Service for Prometheus existe.
-
Vérifiez les paramètres de connexion :
-
Vérifiez que l'URL du point de terminaison est correcte.
-
Vérifiez que l'authentification IAM est correctement configurée.
-
Choisissez Test connection (Tester la connexion). Vérifiez que l'état est La source de données fonctionne.
-
Vérifiez l'état du module complémentaire Amazon EKS
Ouvrez la console Amazon EKS à l'adresse https://console.aws.amazon.com/eks/home#/clusters
. -
Sélectionnez votre cluster.
-
Choisissez l'onglet Modules complémentaires.
-
Vérifiez que le module complémentaire SageMaker HyperPod d'observabilité est répertorié et que son statut est ACTIF.
-
Si le statut n'est pas ACTIF, copiez le message d'erreur et le contact AWS Support.
Vérifier l'association Pod Identity
Ouvrez la console Amazon EKS à l'adresse https://console.aws.amazon.com/eks/home#/clusters
. -
Sélectionnez votre cluster.
-
Sur la page des détails du cluster, choisissez l'onglet Accès.
-
Dans le tableau des associations Pod Identity, choisissez l'association dont les valeurs de propriété sont les suivantes :
-
Espace de noms :
hyperpod-observability
-
Compte de service :
hyperpod-observability-operator-otel-collector
-
Module complémentaire :
amazon-sagemaker-hyperpod-observability
-
-
Assurez-vous que le rôle IAM associé à cette association dispose des autorisations suivantes.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
Région AWS
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:Région AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:Région AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
Vérifiez Amazon Managed Service pour la régulation de Prometheus
-
Connectez-vous à la console Service Quotas AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/servicequotas/
. -
Dans la zone Quotas gérés, recherchez et sélectionnez Amazon Managed Service for Prometheus.
-
Choisissez la série active par quota d'espace de travail.
-
Dans l'onglet Quotas au niveau des ressources, sélectionnez votre espace de travail Amazon Managed Service for Prometheus.
-
Assurez-vous que le taux d'utilisation est inférieur à votre quota actuel.
-
Si vous avez atteint le quota, sélectionnez votre espace de travail en cliquant sur le bouton radio situé à gauche, puis choisissez Demander une augmentation au niveau des ressources.
Résolution des problèmes d'installation des modules complémentaires
Si le module complémentaire d'observabilité ne s'installe pas, suivez les étapes ci-dessous pour diagnostiquer et résoudre le problème.
Vérifier l'état de santé de la sonde
-
Ouvrez la console Amazon EKS à l'adresse https://console.aws.amazon.com/eks/home#/clusters
. -
Sélectionnez votre cluster.
-
Choisissez l'onglet Modules complémentaires.
-
Choisissez le module complémentaire qui a échoué.
-
Consultez la section Problèmes de santé.
-
Contactez le AWS Support pour obtenir les détails du problème.
Consulter les journaux du gestionnaire
-
Téléchargez le module de gestion des modules complémentaires :
kubectl get pods -n hyperpod-observability | grep manager
-
Consultez les journaux :
kubectl logs -n kube-system
addon-manager-pod-name
Pour les problèmes urgents, contactez AWS Support.