HyperPod abas no Studio - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

HyperPod abas no Studio

No Amazon SageMaker Studio, você pode navegar até um dos seus clusters em HyperPodclusters (em Compute) e visualizar sua lista de clusters. Os clusters exibidos contêm determinadas informações, como tarefas, métricas de hardware, configurações e detalhes de metadados. Essa visibilidade pode ajudar sua equipe a identificar o candidato certo para suas workloads de pré-treinamento ou ajuste fino. As seções a seguir fornecem detalhes sobre cada tipo de informação.

Tarefas

A Amazon SageMaker HyperPod fornece uma visão das tarefas do seu cluster. Tarefas são operações ou trabalhos enviados ao cluster. Podem ser operações de machine learning, como treinamento, execução de experimentos ou inferência. A seção a seguir fornece informações sobre suas tarefas de HyperPod cluster.

No Amazon SageMaker Studio, você pode navegar até um dos seus clusters em HyperPodclusters (em Compute) e visualizar as informações de tarefas no seu cluster. Se você estiver tendo problemas com a visualização de tarefas, consulte Solução de problemas.

A tabela de tarefas inclui:

For Slurm clusters

Para clusters do Slurm, as tarefas que no momento estão na fila do agendador de tarefas do Slurm são mostradas na tabela. As informações mostradas para cada tarefa incluem nome, status, ID do trabalho, partição, tempo de execução, nós, quem criou e ações.

Para obter uma lista e detalhes sobre trabalhos anteriores, use o sacctcomando em JupyterLab ou um terminal do Editor de código. O comando sacct é usado para visualizar informações históricas sobre trabalhos que foram concluídos ou estão concluídos no sistema. Ele fornece informações contábeis, incluindo o uso de recursos de trabalho, como memória e status de saída.

Por padrão, todos os usuários do Studio podem visualizar, gerenciar e interagir com todas as tarefas disponíveis do Slurm. Para restringir as tarefas visíveis aos usuários do Studio, consulte Restringir a visualização de tarefas no Studio para clusters do Slurm.

For Amazon EKS clusters

Para clusters do Amazon EKS, as tarefas kubeflow (PyTorch, MPI, TensorFlow) são mostradas na tabela. PyTorch as tarefas são mostradas por padrão. Você pode classificar por PyTorch, MPI e TensorFlow em Tipo de tarefa. As informações mostradas para cada tarefa incluem nome, status, namespace, classe prioritária e horário de criação da tarefa.

Por padrão, todos os usuários podem visualizar trabalhos em todos os namespaces. Para restringir os namespaces visíveis do Kubernetes disponíveis para usuários do Studio, consulte Restringir a visualização de tarefas no Studio para clusters do EKS. Se um usuário não conseguir visualizar as tarefas e for solicitado a fornecer um namespace, ele precisará obter essas informações do administrador.

Metrics

SageMaker HyperPod A Amazon fornece uma visão das métricas de utilização do seu cluster Slurm ou Amazon EKS. Veja a seguir informações sobre as métricas HyperPod do seu cluster.

Você precisará instalar o complemento do Amazon EKS para visualizar as métricas a seguir. Para obter mais informações, consulte Instalar o complemento Amazon CloudWatch Observability EKS.

No Amazon SageMaker Studio, você pode navegar até um dos seus clusters em HyperPodclusters (em Compute) e visualizar os detalhes das métricas do seu cluster. Esse campo oferece uma visualização abrangente das métricas de utilização do cluster, como métricas de hardware, equipe e tarefas. Isso inclui a disponibilidade e o uso de computação, a alocação e a utilização por equipe, além de informações sobre o tempo de execução e de espera.

Configurações

A Amazon SageMaker HyperPod fornece uma visão das configurações do seu cluster. Veja a seguir informações sobre as configurações HyperPod do seu cluster.

No Amazon SageMaker Studio, você pode navegar até um dos seus clusters em HyperPodclusters (em Compute) e visualizar as informações de configurações no seu cluster. As informações incluem as seguintes:

  • Detalhes das instâncias, como ID da instância, status, tipo de instância e grupo de instâncias.

  • Detalhes dos grupos de instâncias, como nome, tipo, contagens e informações computacionais do grupo de instâncias.

  • Detalhes da orquestração, como orquestrador, versão e autoridade de certificação.

  • Detalhes da resiliência do cluster.

  • Detalhes de segurança, como sub-redes e grupos de segurança.

Detalhes

A Amazon SageMaker HyperPod fornece uma visão dos detalhes dos metadados do seu cluster. O parágrafo a seguir fornece informações sobre como obter os detalhes HyperPod do cluster.

No Amazon SageMaker Studio, você pode navegar até um dos seus clusters em HyperPodclusters (em Compute) e visualizar os detalhes do seu cluster. Isso inclui tags, logs e metadados.