Métricas ausentes Add-on falhas de instalação Analisar todos os pods de observabilidade Pods parados no status pendente Solução de problemas de observabilidade em grupos de instâncias restritas

Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon

Use as orientações a seguir para resolver problemas comuns com o complemento de observabilidade Amazon SageMaker HyperPod (SageMaker HyperPod).

Solucionar problemas de métricas ausentes no Amazon Managed Grafana

Se as métricas não aparecerem nos painéis do Amazon Managed Grafana, execute as etapas a seguir para identificar e resolver o problema.

Verifique a conexão do Amazon Managed Service para o Prometheus-Amazon Managed Grafana

Faça login no console do Amazon Managed Grafana.
No painel à esquerda, escolha Todos os espaços de trabalho.
Na tabela Espaços de trabalho, escolha seu espaço de trabalho.
Na página de detalhes do espaço de trabalho, escolha a guia Fontes de dados.
Verifique se a fonte de dados do Amazon Managed Service for Prometheus existe.
Verifique as configurações de conexão:
- Confirme se o URL do endpoint está correto.
- Verifique se a autenticação do IAM está configurada corretamente.
- Selecione Test connection (Testar conexão). Verifique se o status é A fonte de dados está funcionando.

Verificar o status do complemento do Amazon EKS

Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters.
Selecione o cluster
Escolha a guia Add-ons.
Verifique se o complemento SageMaker HyperPod de observabilidade está listado e se seu status é ATIVO.
Se o status não for ATIVO, consulte Solucionar problemas de falha na instalação do complemento.

Verificar a associação de Identidade de Pods

Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters.
Selecione o cluster
Na página de detalhes do cluster, escolha a guia Acesso.
Na tabela de Associações de Identidade de Pods, escolha a associação que tem os seguintes valores de propriedade:
- Espaço nominal: hyperpod-observability
- Conta de serviço: hyperpod-observability-operator-otel-collector.
- Add-on: amazon-sagemaker-hyperpod-observability

O perfil do IAM anexado a essa associação deve ter as permissões a seguir.

O perfil do IAM anexado a essa associação tem a política de confiança a seguir. Verifique se o ARN de origem e a conta de origem estão corretos.

Verificar o controle de utilização do Amazon Managed Service for Prometheus

Faça login Console de gerenciamento da AWS e abra o console Service Quotas em. https://console.aws.amazon.com/servicequotas/
Na caixa Cotas gerenciadas, pesquise e selecione Amazon Managed Service for Prometheus.
Escolha a cota Série ativa por espaço de trabalho.
Na guia de Resource-level cotas, selecione seu espaço de trabalho do Amazon Managed Service for Prometheus.
A utilização deve ser menor que a cota atual.
Se você atingiu o limite de cota, selecione seu espaço de trabalho escolhendo o botão de rádio à esquerda e, em seguida, selecione Solicitar aumento no nível de recurso.

Verifique se o cache KV e o roteamento inteligente estão habilitados

Se o KVCache Metrics painel estiver ausente, o recurso não está ativado ou a porta não é mencionada nomodelMetrics. Para obter mais informações sobre como habilitar isso, consulte as etapas 1 e 3 emConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.

Se o Intelligent Router Metrics painel estiver ausente, ative o recurso para que eles apareçam. Para obter mais informações sobre como habilitar isso, consulteConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.

Solucionar problemas de falha na instalação do complemento

Se a instalação do complemento de observabilidade falhar, use as etapas a seguir para diagnosticar e resolver o problema.

Verificar o status da sonda de integridade

Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters.
Selecione o cluster
Escolha a guia Add-ons.
Escolha o complemento que falhou.
Analise a seção Problemas de integridade.
Se o problema de integridade estiver relacionado a credenciais ou à identidade de pods, consulte Verificar a associação de Identidade de Pods. Além disso, o complemento Agente de Identidade de Pods deve estar em execução no cluster.
Verifique se há erros nos logs do gerenciador. Para instruções, consulte Analisar logs do gerenciador.
Entre em contato com o AWS Support com os detalhes do problema.

Analisar logs do gerenciador

Obtenha o pod do gerenciador de complementos:


kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager

Para problemas urgentes, entre em contato com o Suporte.

Analisar todos os pods de observabilidade

Todos os pods que o complemento de SageMaker HyperPod observabilidade cria estão no namespace. hyperpod-observability Para ver o status desses pods, execute o comando a seguir.


kubectl get pods -n hyperpod-observability

Procure os pods com status pending ou crashloopbackoff. Execute o comando a seguir para obter os logs desses pods pendentes ou com falha.


kubectl logs -n hyperpod-observability pod-name

Se você não encontrar erros nos logs, execute o comando a seguir para descrever os pods e procurar erros.


kubectl describe -n hyperpod-observability pod pod-name

Para ter mais contexto, execute os dois comandos a seguir para descrever as implantações e os daemonsets desses pods.


kubectl describe -n hyperpod-observability deployment deployment-name


kubectl describe -n hyperpod-observability daemonset daemonset-name

Solucionar problemas de pods que estão parados no status pendente

Se você perceber que há pods que estão parados no status pending, verifique se o nó é grande o suficiente para conter todos os pods. Para verificar isso, execute as etapas a seguir.

Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters.
Escolha seu cluster.
Escolha a guia Computação do cluster.
Escolha o nó com o menor tipo de instância.
Na seção de alocação de capacidade, procure os pods disponíveis.
Se não houver pods disponíveis, você precisará de um tipo de instância maior.

Para problemas urgentes, entre em contato com o AWS Support.

Solução de problemas de observabilidade em grupos de instâncias restritas

Use as diretrizes a seguir para resolver problemas específicos de clusters com grupos de instâncias restritas.

Os pods de observabilidade não iniciam em nós restritos

Se os pods de observabilidade não estiverem iniciando em nós restritos, verifique o status e os eventos do pod:


kubectl get pods -n hyperpod-observability -o wide
kubectl describe pod pod-name -n hyperpod-observability

As causas comuns incluem:

Falhas na extração de imagem: os eventos do pod podem mostrar erros de extração de imagem se as imagens do contêiner de observabilidade ainda não estiverem na lista de permissões nos nós restritos. Verifique se você está executando a versão mais recente do complemento de observabilidade. Se o problema persistir após a atualização, entre em contato com. Suporte
Tolerâncias de contaminação: verifique se a especificação do pod inclui a tolerância necessária para nós restritos. O complemento a partir da versão adiciona v1.0.5-eksbuild.1 automaticamente essa tolerância quando o suporte ao RIG está ativado. Se você estiver usando uma versão mais antiga, atualize para a versão mais recente.

Visualização de registros de pods em nós restritos

O kubectl logs comando não funciona para pods executados em nós restritos. Essa é uma limitação esperada porque o caminho de comunicação necessário para o streaming de registros não está disponível em nós restritos.

Para visualizar registros de nós restritos, use o painel Cluster Logs no Amazon Managed Grafana, que consulta CloudWatch os Logs diretamente. Você pode filtrar por ID de instância, fluxo de registros, nível de registro e pesquisa de texto livre para encontrar entradas de registro relevantes.

Falhas de resolução de DNS em clusters com nós padrão e restritos

Em clusters híbridos (clusters com grupos de instâncias padrão e restritos), pods em nós padrão podem ter tempos limite de resolução de DNS ao tentar alcançar endpoints de serviço, como Amazon AWS Managed Service for Prometheus ou. CloudWatch

Causa: o kube-dns serviço tem endpoints de pods CoreDNS padrão e pods RIG CoreDNS. Os pods de nós padrão não podem alcançar os endpoints RIG CoreDNS devido ao isolamento da rede. Quando kube-proxy balanceia a carga de uma solicitação de DNS de um pod de nós padrão para um endpoint RIG CoreDNS, a solicitação expira.

Resolução: configure o kube-dns serviço para que os pods só internalTrafficPolicy: Local alcancem o CoreDNS em seu nó local:


kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}'

Depois de aplicar esse patch, reinicie os pods de observabilidade afetados:


kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector

Métricas de nós restritos que não atingem o Amazon Managed Service para Prometheus

Se as métricas de nós restritos não estiverem aparecendo em seu espaço de trabalho do Amazon Managed Service for Prometheus:

Verifique as permissões da função de execução. Certifique-se de que a função de execução do Grupo de Instâncias Restritas tenha aps:RemoteWrite permissão para seu espaço de trabalho do Prometheus. Para obter mais informações, consulte Pré-requisitos adicionais para grupos de instâncias restritas.
Verifique o status do pod coletor de nós. Execute o comando a seguir e verifique se os pods coletores de nós estão sendo executados em nós restritos:
```
kubectl get pods -n hyperpod-observability | grep node-collector
```
Verifique as implantações do coletor central. Em clusters com nós restritos, o complemento implanta um coletor central por limite de rede. Verifique se existe um coletor central para cada limite:
```
kubectl get deployments -n hyperpod-observability | grep central-collector
```
Verifique se há erros nos eventos do pod. Use kubectl describe nos pods de coletores para procurar eventos de erro:
```
kubectl describe pod collector-pod-name -n hyperpod-observability
```

Se o problema persistir após a verificação acima, entre em contato com. Suporte

A verificação de identidade do pod não se aplica a nós de grupos de instâncias restritos

As etapas Verificar a associação de Identidade de Pods de solução de problemas se aplicam somente aos nós padrão. Em nós restritos, o complemento usa a função de execução do grupo de instâncias de cluster para AWS autenticação em vez do Amazon EKS Pod Identity. Se faltarem métricas nos nós restritos, verifique as permissões da função de execução em vez da associação do Pod Identity.

O Fluent Bit não está sendo executado em nós restritos

Esse comportamento é esperado. O FluentBit não é implantado intencionalmente em nós restritos. Os registros de nós restritos são publicados CloudWatch por meio da SageMaker HyperPod plataforma, independentemente do complemento de observabilidade. Use o painel Cluster Logs no Amazon Managed Grafana para visualizar esses registros.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Alertas pré-configurados

Observabilidade com a Amazon CloudWatch