Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability
Utilizza le seguenti linee guida per risolvere problemi comuni con il componente aggiuntivo Amazon SageMaker HyperPod (SageMaker HyperPod) observability.
Risoluzione dei problemi relativi ai parametri mancanti in Amazon Managed Grafana
Se i parametri non compaiono nelle dashboard di Amazon Managed Grafana, esegui i seguenti passaggi per identificare e risolvere il problema.
Verifica la connessione Amazon Managed Service for Prometheus-Amazon Managed Grafana
-
Accedi alla console Amazon Managed Grafana.
-
Nel riquadro a sinistra, scegli Tutte le aree di lavoro.
-
Nella tabella Aree di lavoro, scegli il tuo spazio di lavoro.
-
Nella pagina dei dettagli dell'area di lavoro, scegli la scheda Origini dati.
-
Verifica che esista l'origine dati Amazon Managed Service for Prometheus.
-
Controlla le impostazioni di connessione:
-
Conferma che l'URL dell'endpoint sia corretto.
-
Verifica che l'autenticazione IAM sia configurata correttamente.
-
Scegli Test Connection (Connessione di prova). Verifica che lo stato sia L'origine dati funziona.
-
Verifica lo stato del componente aggiuntivo Amazon EKS
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Seleziona la scheda Componenti aggiuntivi.
-
Verifica che il componente aggiuntivo di SageMaker HyperPod osservabilità sia elencato e che il suo stato sia ATTIVO.
-
Se lo stato non è ATTIVO, copia il messaggio di errore e il contatto. Supporto AWS
Verifica l'associazione Pod Identity
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Nella pagina dei dettagli del cluster, scegli la scheda Accesso.
-
Nella tabella delle associazioni Pod Identity, scegli l'associazione con i seguenti valori di proprietà:
-
Spazio dei nomi:
hyperpod-observability
-
Account di servizio:
hyperpod-observability-operator-otel-collector
-
Componente aggiuntivo:
amazon-sagemaker-hyperpod-observability
-
-
Assicurati che il ruolo IAM associato a questa associazione disponga delle seguenti autorizzazioni.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
Regione AWS
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:Regione AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:Regione AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
Controlla Amazon Managed Service per la limitazione di Prometheus
-
Accedi AWS Management Console e apri la console Service Quotas all'indirizzo. https://console.aws.amazon.com/servicequotas/
-
Nella casella Quote gestite, cerca e seleziona Amazon Managed Service for Prometheus.
-
Scegli la serie Active per quota di spazio di lavoro.
-
Nella scheda Quote a livello di risorsa, seleziona il tuo spazio di lavoro Amazon Managed Service for Prometheus.
-
Assicurati che l'utilizzo sia inferiore alla tua quota attuale.
-
Se hai raggiunto il limite di quota, seleziona l'area di lavoro scegliendo il pulsante di opzione alla sua sinistra, quindi scegli Richiedi aumento a livello di risorsa.
Risoluzione degli errori di installazione dei componenti aggiuntivi
Se l'installazione del componente aggiuntivo di osservabilità non riesce, utilizzate i seguenti passaggi per diagnosticare e risolvere il problema.
Controllate lo stato della sonda sanitaria
-
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Seleziona la scheda Componenti aggiuntivi.
-
Scegli il componente aggiuntivo non riuscito.
-
Consulta la sezione Problemi di salute.
-
Contatta l' AWS assistenza per i dettagli del problema.
Rivedi i log del gestore
-
Scarica il pod del gestore dei componenti aggiuntivi:
kubectl get pods -n hyperpod-observability | grep manager
-
Controlla i log:
kubectl logs -n kube-system
addon-manager-pod-name
Per problemi urgenti, contatta Supporto AWS.