Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Solución de problemas con el complemento de SageMaker HyperPod observabilidad de Amazon
Usa la siguiente guía para resolver problemas comunes con el complemento de observabilidad Amazon SageMaker HyperPod (SageMaker HyperPod).
Solución de problemas de métricas faltantes en Amazon Managed Grafana
Si las métricas no aparecen en tus paneles de control de Grafana gestionada por Amazon, sigue estos pasos para identificar y resolver el problema.
Verificar el Amazon Managed Service para la conexión Prometheus-Amazon Managed Grafana
-
Inicia sesión en la consola de Grafana gestionada por Amazon.
-
En el panel izquierdo, selecciona Todos los espacios de trabajo.
-
En la tabla Espacios de trabajo, elija su espacio de trabajo.
-
En la página de detalles del espacio de trabajo, seleccione la pestaña Fuentes de datos.
-
Compruebe que existe la fuente de datos de Amazon Managed Service for Prometheus.
-
Compruebe la configuración de la conexión:
-
Confirme que la URL del punto final sea correcta.
-
Compruebe que la autenticación de IAM esté configurada correctamente.
-
Elija Test Connection (Probar conexión). Compruebe que el estado es La fuente de datos funciona.
-
Verificar el estado del complemento Amazon EKS
Abra la consola Amazon EKS en https://console.aws.amazon.com/eks/home#/clusters
. -
Seleccione el clúster.
-
Elija la pestaña Complementos.
-
Compruebe que el complemento de SageMaker HyperPod observabilidad aparezca en la lista y que su estado sea ACTIVO.
-
Si el estado no es ACTIVO, copia el mensaje de error y ponte en contacto con AWS Supportél.
Verifica la asociación entre Pod Identity
Abra la consola Amazon EKS en https://console.aws.amazon.com/eks/home#/clusters
. -
Seleccione el clúster.
-
En la página de detalles del clúster, seleccione la pestaña Acceso.
-
En la tabla de asociaciones de identidad del pod, elija la asociación que tenga los siguientes valores de propiedad:
-
Espacio de nombres:
hyperpod-observability
-
Cuenta de servicio:
hyperpod-observability-operator-otel-collector
-
Complemento:
amazon-sagemaker-hyperpod-observability
-
-
Asegúrese de que la función de IAM asociada a esta asociación tenga los siguientes permisos.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
Región de AWS
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:Región de AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:Región de AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
Consulte Amazon Managed Service para ver Prometheus Throttling
-
Inicie sesión en la consola Service Quotas AWS Management Console y ábrala en https://console.aws.amazon.com/servicequotas/
. -
En el cuadro Cuotas gestionadas, busca y selecciona Amazon Managed Service for Prometheus.
-
Elige la cuota de la serie Active por espacio de trabajo.
-
En la pestaña Cuotas a nivel de recursos, selecciona tu espacio de trabajo de Amazon Managed Service for Prometheus.
-
Asegúrese de que la utilización sea inferior a su cuota actual.
-
Si has alcanzado el límite de cuota, selecciona tu espacio de trabajo pulsando el botón de radio situado a la izquierda y, a continuación, selecciona Solicitar un aumento a nivel de recurso.
Solución de problemas de instalación de complementos
Si el complemento de observabilidad no se instala, sigue estos pasos para diagnosticar y resolver el problema.
Compruebe el estado de la sonda
-
Abra la consola Amazon EKS en https://console.aws.amazon.com/eks/home#/clusters
. -
Seleccione el clúster.
-
Elija la pestaña Complementos.
-
Elija el complemento fallido.
-
Consulta la sección de Problemas de salud.
-
Póngase en contacto con AWS Support con los detalles del problema.
Revisa los registros del administrador
-
Obtén el módulo del administrador de complementos:
kubectl get pods -n hyperpod-observability | grep manager
-
Comprueba los registros:
kubectl logs -n kube-system
addon-manager-pod-name
Para problemas urgentes, póngase en contacto con AWS Support.