Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon

Use as orientações a seguir para resolver problemas comuns com o complemento de observabilidade Amazon SageMaker HyperPod (SageMaker HyperPod).

Solução de problemas de métricas ausentes no Amazon Managed Grafana

Se as métricas não aparecerem nos painéis do Amazon Managed Grafana, execute as etapas a seguir para identificar e resolver o problema.

Verifique a conexão Amazon Managed Service para Prometheus-Amazon Managed Grafana

  1. Faça login no console Amazon Managed Grafana.

  2. No painel esquerdo, escolha Todos os espaços de trabalho.

  3. Na tabela Espaços de trabalho, escolha seu espaço de trabalho.

  4. Na página de detalhes do espaço de trabalho, escolha a guia Fontes de dados.

  5. Verifique se a fonte de dados do Amazon Managed Service for Prometheus existe.

  6. Verifique as configurações de conexão:

    • Confirme se o URL do endpoint está correto.

    • Verifique se a autenticação do IAM está configurada corretamente.

    • Selecione Test connection (Testar conexão). Verifique se o status é A fonte de dados está funcionando.

Verifique o status do complemento Amazon EKS

  1. Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters.

  2. Selecione o cluster

  3. Escolha a guia Add-ons (Complementos).

  4. Verifique se o complemento SageMaker HyperPod de observabilidade está listado e se seu status é ATIVO.

  5. Se o status não for ATIVO, copie a mensagem de erro e entre em contato AWS Support.

Verifique a associação do Pod Identity

  1. Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters.

  2. Selecione o cluster

  3. Na página de detalhes do cluster, escolha a guia Acesso.

  4. Na tabela de associações do Pod Identity, escolha a associação que tem os seguintes valores de propriedade:

    • Namespace: hyperpod-observability

    • Conta de serviço: hyperpod-observability-operator-otel-collector

    • Complemento: amazon-sagemaker-hyperpod-observability

  5. Certifique-se de que a função do IAM associada a essa associação tenha as seguintes permissões.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:Região da AWS:account-ID:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:Região da AWS:account-ID:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:Região da AWS:account-ID:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }

Verifique o Amazon Managed Service para ver a limitação do Prometheus

  1. Faça login AWS Management Console e abra o console Service Quotas em. https://console.aws.amazon.com/servicequotas/

  2. Na caixa Cotas gerenciadas, pesquise e selecione Amazon Managed Service for Prometheus.

  3. Escolha a série Active por cota de espaço de trabalho.

  4. Na guia Cotas em nível de recurso, selecione seu espaço de trabalho do Amazon Managed Service for Prometheus.

  5. Certifique-se de que a utilização seja menor que sua cota atual.

  6. Se você atingiu o limite de cota, selecione seu espaço de trabalho escolhendo o botão de rádio à esquerda e, em seguida, escolha Solicitar aumento no nível do recurso.

Solução de problemas de falhas na instalação do complemento

Se o complemento de observabilidade falhar na instalação, use as etapas a seguir para diagnosticar e resolver o problema.

Verifique o status da sonda de saúde

  1. Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters.

  2. Selecione o cluster

  3. Escolha a guia Add-ons (Complementos).

  4. Escolha o complemento que falhou.

  5. Revise a seção Problemas de saúde.

  6. Entre em contato com o AWS Support com os detalhes do problema.

Revise os registros do gerenciador

  1. Obtenha o pod do gerenciador de complementos:

    kubectl get pods -n hyperpod-observability | grep manager
  2. Verifique os registros:

    kubectl logs -n kube-system addon-manager-pod-name

Para problemas urgentes, entre em contato AWS Support.