As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon
Use as orientações a seguir para resolver problemas comuns com o complemento de observabilidade Amazon SageMaker HyperPod (SageMaker HyperPod).
Solucionar problemas de métricas ausentes no Amazon Managed Grafana
Se as métricas não aparecerem nos painéis do Amazon Managed Grafana, execute as etapas a seguir para identificar e resolver o problema.
Verificar a conexão do Amazon Managed Service for Prometheus-Amazon Managed Grafana
-
Faça login no console do Amazon Managed Grafana.
-
No painel à esquerda, escolha Todos os espaços de trabalho.
-
Na tabela Espaços de trabalho, escolha seu espaço de trabalho.
-
Na página de detalhes do espaço de trabalho, escolha a guia Fontes de dados.
-
Verifique se a fonte de dados do Amazon Managed Service for Prometheus existe.
-
Verifique as configurações de conexão:
-
Confirme se o URL do endpoint está correto.
-
Verifique se a autenticação do IAM está configurada corretamente.
-
Selecione Test connection (Testar conexão). Verifique se o status é A fonte de dados está funcionando.
-
Verificar o status do complemento do Amazon EKS
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Selecione o cluster
-
Escolha a guia Add-ons (Complementos).
-
Verifique se o complemento SageMaker HyperPod de observabilidade está listado e se seu status é ATIVO.
-
Se o status não for ATIVO, consulte Solucionar problemas de falha na instalação do complemento.
Verificar a associação de Identidade de Pods
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Selecione o cluster
-
Na página de detalhes do cluster, escolha a guia Acesso.
-
Na tabela de Associações de Identidade de Pods, escolha a associação que tem os seguintes valores de propriedade:
-
Namespace:
hyperpod-observability -
Conta de serviço:
hyperpod-observability-operator-otel-collector. -
Complemento:
amazon-sagemaker-hyperpod-observability.
-
-
O perfil do IAM anexado a essa associação deve ter as permissões a seguir.
-
O perfil do IAM anexado a essa associação tem a política de confiança a seguir. Verifique se o ARN de origem e a conta de origem estão corretos.
Verificar o controle de utilização do Amazon Managed Service for Prometheus
-
Faça login Console de gerenciamento da AWS e abra o console Service Quotas em. https://console.aws.amazon.com/servicequotas/
-
Na caixa Cotas gerenciadas, pesquise e selecione Amazon Managed Service for Prometheus.
-
Escolha a cota Série ativa por espaço de trabalho.
-
Na guia Cotas em nível de recurso, selecione seu espaço de trabalho do Amazon Managed Service for Prometheus.
-
A utilização deve ser menor que a cota atual.
-
Se você atingiu o limite de cota, selecione seu espaço de trabalho escolhendo o botão de rádio à esquerda e, em seguida, selecione Solicitar aumento no nível de recurso.
Verifique se o cache KV e o roteamento inteligente estão habilitados
Se o KVCache Metrics painel estiver ausente, o recurso não está ativado ou a porta não é mencionada nomodelMetrics. Para obter mais informações sobre como habilitar isso, consulte as etapas 1 e 3 emConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.
Se o Intelligent Router Metrics painel estiver ausente, ative o recurso para que eles apareçam. Para obter mais informações sobre como habilitar isso, consulteConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.
Solucionar problemas de falha na instalação do complemento
Se a instalação do complemento de observabilidade falhar, use as etapas a seguir para diagnosticar e resolver o problema.
Verificar o status da sonda de integridade
-
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Selecione o cluster
-
Escolha a guia Add-ons (Complementos).
-
Escolha o complemento que falhou.
-
Analise a seção Problemas de integridade.
-
Se o problema de integridade estiver relacionado a credenciais ou à identidade de pods, consulte Verificar a associação de Identidade de Pods. Além disso, o complemento Agente de Identidade de Pods deve estar em execução no cluster.
-
Verifique se há erros nos logs do gerenciador. Para instruções, consulte Analisar logs do gerenciador.
-
Entre em contato com o AWS Support com os detalhes do problema.
Analisar logs do gerenciador
-
Obtenha o pod do gerenciador de complementos:
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
Para problemas urgentes, entre em contato com o Suporte.
Analisar todos os pods de observabilidade
Todos os pods que o complemento de SageMaker HyperPod observabilidade cria estão no namespace. hyperpod-observability Para ver o status desses pods, execute o comando a seguir.
kubectl get pods -n hyperpod-observability
Procure os pods com status pending ou crashloopbackoff. Execute o comando a seguir para obter os logs desses pods pendentes ou com falha.
kubectl logs -n hyperpod-observability pod-name
Se você não encontrar erros nos logs, execute o comando a seguir para descrever os pods e procurar erros.
kubectl describe -n hyperpod-observability pod pod-name
Para ter mais contexto, execute os dois comandos a seguir para descrever as implantações e os daemonsets desses pods.
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
Solucionar problemas de pods que estão parados no status pendente
Se você perceber que há pods que estão parados no status pending, verifique se o nó é grande o suficiente para conter todos os pods. Para verificar isso, execute as etapas a seguir.
Abra o console do Amazon EKS em https://console.aws.amazon.com/eks/home#/clusters
. -
Escolha seu cluster.
-
Escolha a guia Computação do cluster.
-
Escolha o nó com o menor tipo de instância.
-
Na seção de alocação de capacidade, procure os pods disponíveis.
-
Se não houver pods disponíveis, você precisará de um tipo de instância maior.
Para problemas urgentes, entre em contato com o AWS Support.