As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon
Use as orientações a seguir para resolver problemas comuns com o complemento de observabilidade Amazon SageMaker HyperPod (SageMaker HyperPod).
Solucionar problemas de métricas ausentes no Amazon Managed Grafana
Se as métricas não aparecerem nos painéis do Amazon Managed Grafana, execute as etapas a seguir para identificar e resolver o problema.
Verificar a conexão do Amazon Managed Service for Prometheus-Amazon Managed Grafana
-
Faça login no console do Amazon Managed Grafana.
-
No painel à esquerda, escolha Todos os espaços de trabalho.
-
Na tabela Espaços de trabalho, escolha seu espaço de trabalho.
-
Na página de detalhes do espaço de trabalho, escolha a guia Fontes de dados.
-
Verifique se a fonte de dados do Amazon Managed Service for Prometheus existe.
-
Verifique as configurações de conexão:
-
Confirme se o URL do endpoint está correto.
-
Verifique se a autenticação do IAM está configurada corretamente.
-
Selecione Test connection (Testar conexão). Verifique se o status é A fonte de dados está funcionando.
-
Verificar o status do complemento do Amazon EKS
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Selecione o cluster
-
Escolha a guia Add-ons (Complementos).
-
Verifique se o complemento SageMaker HyperPod de observabilidade está listado e se seu status é ATIVO.
-
Se o status não for ATIVO, consulte Solucionar problemas de falha na instalação do complemento.
Verificar a associação de Identidade de Pods
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Selecione o cluster
-
Na página de detalhes do cluster, escolha a guia Acesso.
-
Na tabela de Associações de Identidade de Pods, escolha a associação que tem os seguintes valores de propriedade:
-
Namespace:
hyperpod-observability -
Conta de serviço:
hyperpod-observability-operator-otel-collector. -
Complemento:
amazon-sagemaker-hyperpod-observability.
-
-
O perfil do IAM anexado a essa associação deve ter as permissões a seguir.
-
O perfil do IAM anexado a essa associação tem a política de confiança a seguir. Verifique se o ARN de origem e a conta de origem estão corretos.
Verificar o controle de utilização do Amazon Managed Service for Prometheus
-
Faça login Console de gerenciamento da AWS e abra o console Service Quotas em. https://console.aws.amazon.com/servicequotas/
-
Na caixa Cotas gerenciadas, pesquise e selecione Amazon Managed Service for Prometheus.
-
Escolha a cota Série ativa por espaço de trabalho.
-
Na guia Cotas em nível de recurso, selecione seu espaço de trabalho do Amazon Managed Service for Prometheus.
-
A utilização deve ser menor que a cota atual.
-
Se você atingiu o limite de cota, selecione seu espaço de trabalho escolhendo o botão de rádio à esquerda e, em seguida, selecione Solicitar aumento no nível de recurso.
Verifique se o cache KV e o roteamento inteligente estão habilitados
Se o KVCache Metrics painel estiver ausente, o recurso não está ativado ou a porta não é mencionada nomodelMetrics. Para obter mais informações sobre como habilitar isso, consulte as etapas 1 e 3 emConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.
Se o Intelligent Router Metrics painel estiver ausente, ative o recurso para que eles apareçam. Para obter mais informações sobre como habilitar isso, consulteConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.
Solucionar problemas de falha na instalação do complemento
Se a instalação do complemento de observabilidade falhar, use as etapas a seguir para diagnosticar e resolver o problema.
Verificar o status da sonda de integridade
-
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Selecione o cluster
-
Escolha a guia Add-ons (Complementos).
-
Escolha o complemento que falhou.
-
Analise a seção Problemas de integridade.
-
Se o problema de integridade estiver relacionado a credenciais ou à identidade de pods, consulte Verificar a associação de Identidade de Pods. Além disso, o complemento Agente de Identidade de Pods deve estar em execução no cluster.
-
Verifique se há erros nos logs do gerenciador. Para instruções, consulte Analisar logs do gerenciador.
-
Entre em contato com o AWS Support com os detalhes do problema.
Analisar logs do gerenciador
-
Obtenha o pod do gerenciador de complementos:
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
Para problemas urgentes, entre em contato com o Suporte.
Analisar todos os pods de observabilidade
Todos os pods que o complemento de SageMaker HyperPod observabilidade cria estão no namespace. hyperpod-observability Para ver o status desses pods, execute o comando a seguir.
kubectl get pods -n hyperpod-observability
Procure os pods com status pending ou crashloopbackoff. Execute o comando a seguir para obter os logs desses pods pendentes ou com falha.
kubectl logs -n hyperpod-observability pod-name
Se você não encontrar erros nos logs, execute o comando a seguir para descrever os pods e procurar erros.
kubectl describe -n hyperpod-observability pod pod-name
Para ter mais contexto, execute os dois comandos a seguir para descrever as implantações e os daemonsets desses pods.
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
Solucionar problemas de pods que estão parados no status pendente
Se você perceber que há pods que estão parados no status pending, verifique se o nó é grande o suficiente para conter todos os pods. Para verificar isso, execute as etapas a seguir.
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Escolha seu cluster.
-
Escolha a guia Computação do cluster.
-
Escolha o nó com o menor tipo de instância.
-
Na seção de alocação de capacidade, procure os pods disponíveis.
-
Se não houver pods disponíveis, você precisará de um tipo de instância maior.
Para problemas urgentes, entre em contato com o AWS Support.
Solução de problemas de observabilidade em grupos de instâncias restritas
Use as diretrizes a seguir para resolver problemas específicos de clusters com grupos de instâncias restritas.
Os pods de observabilidade não iniciam em nós restritos
Se os pods de observabilidade não estiverem iniciando em nós restritos, verifique o status e os eventos do pod:
kubectl get pods -n hyperpod-observability -o wide kubectl describe podpod-name-n hyperpod-observability
As causas comuns incluem:
-
Falhas na extração de imagem: os eventos do pod podem mostrar erros de extração de imagem se as imagens do contêiner de observabilidade ainda não estiverem na lista de permissões nos nós restritos. Verifique se você está executando a versão mais recente do complemento de observabilidade. Se o problema persistir após a atualização, entre em contato com. Suporte
-
Tolerâncias de contaminação: verifique se a especificação do pod inclui a tolerância necessária para nós restritos. O complemento a partir da versão adiciona
v1.0.5-eksbuild.1automaticamente essa tolerância quando o suporte ao RIG está ativado. Se você estiver usando uma versão mais antiga, atualize para a versão mais recente.
Visualização de registros de pods em nós restritos
O kubectl logs comando não funciona para pods executados em nós restritos. Essa é uma limitação esperada porque o caminho de comunicação necessário para o streaming de registros não está disponível em nós restritos.
Para visualizar registros de nós restritos, use o painel Cluster Logs no Amazon Managed Grafana, que consulta CloudWatch os Logs diretamente. Você pode filtrar por ID de instância, fluxo de registros, nível de registro e pesquisa de texto livre para encontrar entradas de registro relevantes.
Falhas de resolução de DNS em clusters com nós padrão e restritos
Em clusters híbridos (clusters com grupos de instâncias padrão e restritos), pods em nós padrão podem ter tempos limite de resolução de DNS ao tentar alcançar endpoints de serviço, como Amazon AWS Managed Service for Prometheus ou. CloudWatch
Causa: o kube-dns serviço tem endpoints de pods CoreDNS padrão e pods RIG CoreDNS. Os pods de nós padrão não podem alcançar os endpoints RIG CoreDNS devido ao isolamento da rede. Quando kube-proxy balanceia a carga de uma solicitação de DNS de um pod de nós padrão para um endpoint RIG CoreDNS, a solicitação expira.
Resolução: configure o kube-dns serviço para que os pods só internalTrafficPolicy: Local alcancem o CoreDNS em seu nó local:
kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}'
Depois de aplicar esse patch, reinicie os pods de observabilidade afetados:
kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector
Métricas de nós restritos que não atingem o Amazon Managed Service para Prometheus
Se as métricas de nós restritos não estiverem aparecendo em seu espaço de trabalho do Amazon Managed Service for Prometheus:
-
Verifique as permissões da função de execução. Certifique-se de que a função de execução do Grupo de Instâncias Restritas tenha
aps:RemoteWritepermissão para seu espaço de trabalho do Prometheus. Para obter mais informações, consulte Pré-requisitos adicionais para grupos de instâncias restritas. -
Verifique o status do pod coletor de nós. Execute o comando a seguir e verifique se os pods coletores de nós estão sendo executados em nós restritos:
kubectl get pods -n hyperpod-observability | grep node-collector -
Verifique as implantações do coletor central. Em clusters com nós restritos, o complemento implanta um coletor central por limite de rede. Verifique se existe um coletor central para cada limite:
kubectl get deployments -n hyperpod-observability | grep central-collector -
Verifique se há erros nos eventos do pod. Use
kubectl describenos pods coletores para procurar eventos de erro:kubectl describe podcollector-pod-name-n hyperpod-observability
Se o problema persistir após a verificação acima, entre em contato com. Suporte
A verificação de identidade do pod não se aplica a nós de grupos de instâncias restritos
As etapas Verificar a associação de Identidade de Pods de solução de problemas se aplicam somente aos nós padrão. Em nós restritos, o complemento usa a função de execução do grupo de instâncias de cluster para AWS autenticação em vez do Amazon EKS Pod Identity. Se faltarem métricas nos nós restritos, verifique as permissões da função de execução em vez da associação do Pod Identity.
O Fluent Bit não está sendo executado em nós restritos
Esse comportamento é esperado. O FluentBit não é implantado intencionalmente em nós restritos. Os registros de nós restritos são publicados CloudWatch por meio da SageMaker HyperPod plataforma, independentemente do complemento de observabilidade. Use o painel Cluster Logs no Amazon Managed Grafana para visualizar esses registros.