Observabilidade para o SageMaker HyperPod cluster da Amazon orquestrada pelo Amazon EKS - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Observabilidade para o SageMaker HyperPod cluster da Amazon orquestrada pelo Amazon EKS

Para obter uma observabilidade abrangente em seus recursos de cluster e componentes de software da Amazon SageMaker HyperPod (SageMaker HyperPod), integre o cluster com o Amazon CloudWatch Container Insights, o Amazon Managed Service for Prometheus e o Amazon Managed Grafana. Essas ferramentas oferecem visibilidade sobre a integridade do cluster, as métricas de desempenho e a utilização de recursos.

A integração com o Amazon Managed Service for Prometheus permite a exportação de métricas relacionadas aos HyperPod seus recursos de cluster, fornecendo informações sobre seu desempenho, utilização e integridade. A integração com o Amazon Managed Grafana permite a visualização dessas métricas por meio de vários painéis do Grafana que oferecem uma interface intuitiva para monitorar e analisar o comportamento do cluster. Ao aproveitar esses serviços, você obtém uma visão centralizada e unificada do seu HyperPod cluster, facilitando o monitoramento proativo, a solução de problemas e a otimização de suas cargas de trabalho de treinamento distribuídas.

nota

Enquanto CloudWatch o Amazon Managed Service for Prometheus e o Amazon Managed Grafana se concentram em métricas operacionais (por exemplo, integridade do sistema, desempenho do trabalho de treinamento) SageMaker HyperPod , os relatórios de uso complementam a governança de tarefas para fornecer insights financeiros e de responsabilidade de recursos. Esses relatórios monitoram:

  • Utilização da computação (GPU/CPU/Neuron Core hours) across namespaces/teams

  • A atribuição de custos para recursos alocados e recursos tomados emprestados.

  • As tendências históricas (até 180 dias) para auditoria e otimização.

Para obter mais informações sobre como configurar e gerar relatórios de uso, consulte Relatar o uso de computação em HyperPod.

dica

Para encontrar exemplos e soluções práticas, consulte também a seção Observabilidade no SageMaker HyperPod workshop Amazon EKS Support.

Continue com os tópicos a seguir para configurar a observabilidade SageMaker HyperPod do cluster.