Solução de problemas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.

Guia do Painel

Não é possível instalar o complemento do EKS

Para que a instalação do complemento do EKS tenha êxito, você precisará ter uma versão do Kubernetes >= 1.30. Para atualizar, consulte Atualizar um cluster existente para a nova versão do Kubernetes.

Para que a instalação do complemento do EKS tenha êxito, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.

Para verificar o status dos seus nós, use o list-cluster-nodesAWS CLIcomando ou navegue até seu cluster EKS no console do EKS e visualize o status dos seus nós. Resolva o problema de cada nó ou entre em contato com seu administrador. Se o status do nó for Desconhecido, exclua o nó. Quando todos os status dos nós estiverem prontos, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker AI.

Para verificar o status dos pods, use o comando kubectl get pods -n cloudwatch-agent da CLI do Kubernetes ou navegue até o cluster dos EKS no console do EKS e visualize o status dos pods com o namespace cloudwatch-agent. Resolva o problema dos pods ou entre em contato com seu administrador para resolvê-lo. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker AI.

Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.

Guia Tarefas

Se você vir a mensagem de erro sobre como a definição de recursos personalizados (CRD) não está configurada no cluster, conceda as políticas EKSAdminViewPolicy e ClusterAccessRole ao perfil de execução do domínio.

Políticas

A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.

  • Se a política estiver no status CreateFailed ou CreateRollbackFailed, você precisará excluir a política com falha e criar outra.

  • Se a política estiver no status UpdateFailed, tente atualizar novamente usando o mesmo ARN da política.

  • Se a política estiver no status UpdateRollbackFailed, você precisará excluir a política com falha e criar outra.

  • Se a política estiver no status DeleteFailed ou DeleteRollbackFailed, tente excluir novamente usando o mesmo ARN da política.

    • Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la cluster-scheduler-config usando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação de computação.

Para ver mais detalhes sobre a falha, use a API describe.

Excluir clusters

A seguir, listamos soluções conhecidas para erros relacionados à exclusão de clusters.

  • Quando a exclusão do cluster falhar devido às políticas de governança de SageMaker HyperPod tarefas anexadas, você precisaráExcluir políticas.

  • Quando a exclusão de um cluster falhar devido à falta das permissões a seguir, você precisará atualizar o conjunto mínimo de permissões do administrador do cluster. Consulte a guia Amazon EKS na seção Usuários do IAM para administração de cluster.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig