As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Observabilidade para o SageMaker HyperPod cluster da Amazon orquestrada pelo Amazon EKS
Para obter uma observabilidade abrangente em seus recursos de cluster e componentes de software da Amazon SageMaker HyperPod (SageMaker HyperPod), integre o cluster com o Amazon CloudWatch Container Insights, o Amazon Managed Service for Prometheus e o Amazon Managed Grafana. Essas ferramentas fornecem visibilidade da integridade do cluster, das métricas de desempenho e da utilização de recursos.
A integração com o Amazon Managed Service for Prometheus permite a exportação de métricas relacionadas aos HyperPod seus recursos de cluster, fornecendo informações sobre seu desempenho, utilização e integridade. A integração com o Amazon Managed Grafana permite a visualização dessas métricas por meio de vários painéis do Grafana que oferecem uma interface intuitiva para monitorar e analisar o comportamento do cluster. Ao aproveitar esses serviços, você obtém uma visão centralizada e unificada do seu HyperPod cluster, facilitando o monitoramento proativo, a solução de problemas e a otimização de suas cargas de trabalho de treinamento distribuídas.
nota
Enquanto CloudWatch o Amazon Managed Service for Prometheus e o Amazon Managed Grafana se concentram em métricas operacionais (por exemplo, integridade do sistema, desempenho do trabalho de treinamento) SageMaker HyperPod , os relatórios de uso complementam a governança de tarefas para fornecer insights financeiros e de responsabilidade de recursos. Esses relatórios rastreiam:
-
Utilização da computação (GPU/CPU/Neuron Core hours) across namespaces/teams
-
Atribuição de custos para recursos alocados versus recursos emprestados
-
Tendências históricas (até 180 dias) para auditoria e otimização
Para obter mais informações sobre como configurar e gerar relatórios de uso, consulte Relatar o uso de computação em HyperPod.
dica
Para encontrar exemplos e soluções práticas, consulte também a seção Observabilidade
Continue com os tópicos a seguir para configurar a observabilidade SageMaker HyperPod do cluster.