As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Solução de problemas
A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.
Guia do Painel
Não é possível instalar o complemento do EKS
Para que a instalação do complemento do EKS tenha êxito, você precisará ter uma versão do Kubernetes >= 1.30. Para atualizar, consulte Atualizar um cluster existente para a nova versão do Kubernetes.
Para que a instalação do complemento do EKS tenha êxito, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.
Para verificar o status dos seus nós, use o list-cluster-nodesAWS CLIcomando ou navegue até seu cluster EKS no console do EKS
Para verificar o status dos pods, use o comando kubectl get pods -n cloudwatch-agent da CLI do Kubernetescloudwatch-agent. Resolva o problema dos pods ou entre em contato com seu administrador para resolvê-lo. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker
Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.
Guia Tarefas
Se você vir a mensagem de erro sobre como a definição de recursos personalizados (CRD) não está configurada no cluster, conceda as políticas EKSAdminViewPolicy e ClusterAccessRole ao perfil de execução do domínio.
-
Para obter informações sobre como obter sua função de execução, consulteObtenha um perfil de execução.
-
Para saber como anexar políticas a um grupo ou usuário do IAM, consulte Adicionar e remover permissões de identidade do IAM.
Políticas
A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.
-
Se a política estiver no status
CreateFailedouCreateRollbackFailed, você precisará excluir a política com falha e criar outra. -
Se a política estiver no status
UpdateFailed, tente atualizar novamente usando o mesmo ARN da política. -
Se a política estiver no status
UpdateRollbackFailed, você precisará excluir a política com falha e criar outra. -
Se a política estiver no status
DeleteFailedouDeleteRollbackFailed, tente excluir novamente usando o mesmo ARN da política.-
Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la
cluster-scheduler-configusando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação de computação.
-
Para ver mais detalhes sobre a falha, use a API describe.
Excluir clusters
A seguir, listamos soluções conhecidas para erros relacionados à exclusão de clusters.
-
Quando a exclusão do cluster falhar devido às políticas de governança de SageMaker HyperPod tarefas anexadas, você precisaráExcluir políticas.
-
Quando a exclusão de um cluster falhar devido à falta das permissões a seguir, você precisará atualizar o conjunto mínimo de permissões do administrador do cluster. Consulte a guia Amazon EKS na seção Usuários do IAM para administração de cluster.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-