Solução de problemas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

A seção a seguir lista as soluções de solução de problemas para HyperPod o Studio.

Guia Tarefas

Se você receber a mensagem Custom Resource Definition (CRD) is not configured on the cluster enquanto estiver na guia Tarefas.

Se a grade de tarefas das métricas do Slurm não parar de carregar na guia Tarefas.

Quanto à visualização restrita de tarefas no Studio para cluster do EKS:

  • Se seu perfil de execução não tiver permissões para listar namespaces para clusters do EKS.

  • Se os usuários estiverem tendo problemas com o acesso aos clusters EKS.

    1. Verifique se o RBAC está ativado executando o comando a seguirAWS CLI.

      kubectl api-versions | grep rbac

      Isso deve exibir rbac.authorization.k8s.io/v1.

    2. Verifique se ClusterRole e ClusterRoleBinding existem executando os comandos a seguir.

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. Verifique a associação ao grupo de usuários. O usuário deve estar corretamente atribuído ao grupo pods-events-crd-cluster-level em seu provedor de identidades ou no IAM.

  • Se o usuário não conseguir ver nenhum recurso.

    • Confira a associação ao grupo e verifique se ClusterRoleBinding foi aplicado corretamente.

  • Se os usuários puderem ver recursos em todos os namespaces.

    • Se a restrição de namespace for necessária, considere usar Role e RoleBinding em vez de e ClusterRole e ClusterRoleBinding.

  • Se a configuração parecer correta, mas as permissões não forem aplicadas.

    • Verifique se NetworkPolicies ou PodSecurityPolicies estão interferindo no acesso.

Guia Métricas

Se não houver CloudWatch métricas da Amazon, elas serão exibidas na guia Métricas.

  • A Metrics seção de detalhes do HyperPod cluster é usada CloudWatch para buscar os dados. Para ver as métricas dessa seção, é necessário ter habilitado Observabilidade de clusters e tarefas. Entre em contato com seu administrador para configurar as métricas.