Solução de problemas - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.

Guia do Painel

Falha na instalação do complemento EKS

Para que a instalação do complemento EKS seja bem-sucedida, você precisará ter uma versão >= 1.30 do Kubernets. Para atualizar, consulte Atualizar a versão do Kubernetes.

Para que a instalação do complemento EKS seja bem-sucedida, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.

Para verificar o status dos seus nós, use o list-cluster-nodes AWS CLI comando ou navegue até seu cluster EKS no console EKS e visualize o status dos seus nós. Resolva o problema de cada nó ou entre em contato com seu administrador. Se o status do nó for Desconhecido, exclua o nó. Quando todos os status dos nós estiverem prontos, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker AI.

Para verificar o status dos seus pods, use o kubectl get pods -n cloudwatch-agent comando da CLI do Kubernetes ou navegue até seu cluster EKS no console EKS e veja o status dos seus pods com o namespace. cloudwatch-agent Resolva o problema dos pods ou entre em contato com seu administrador para resolver os problemas. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker AI.

Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.

Aba Tarefas

Se você ver a mensagem de erro sobre como a Definição de Recursos Personalizados (CRD) não está configurada no cluster, conceda EKSAdminViewPolicy e aplique ClusterAccessRole políticas para sua função de execução de domínio.

Políticas

A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.

  • Se a política estiver em CreateFailed ou com CreateRollbackFailed status, você precisará excluir a política com falha e criar uma nova.

  • Se a política estiver no UpdateFailed status, tente atualizar novamente com o mesmo ARN da política.

  • Se a política estiver em UpdateRollbackFailed status, você precisará excluir a política com falha e criar uma nova.

  • Se a política estiver em DeleteFailed ou com DeleteRollbackFailed status, tente excluir novamente com o mesmo ARN da política.

    • Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la cluster-scheduler-config usando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação computacional.

Para ver mais detalhes sobre a falha, use a API describe.

Excluindo clusters

A seguir, listamos soluções conhecidas para erros relacionados à exclusão de clusters.

  • Quando a exclusão do cluster falhar devido às políticas de governança de SageMaker HyperPod tarefas anexadas, você precisaráExcluir políticas.

  • Quando a exclusão do cluster falhar devido à falta das permissões a seguir, você precisará atualizar o conjunto mínimo de permissões do administrador do cluster. Consulte a guia Amazon EKS na Usuários do IAM para administração de cluster seção.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig