

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# SageMaker HyperPod monitoramento de recursos de cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

Para obter uma observabilidade abrangente em seus recursos de SageMaker HyperPod cluster e componentes de software, integre o cluster ao [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) e ao [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. A integração com o Amazon Managed Service for Prometheus permite a exportação de métricas relacionadas aos HyperPod seus recursos de cluster, fornecendo informações sobre seu desempenho, utilização e integridade. A integração com o Amazon Managed Grafana permite a visualização dessas métricas por meio de vários painéis do Grafana que oferecem uma interface intuitiva para monitorar e analisar o comportamento do cluster. Ao aproveitar esses serviços, você obtém uma visão centralizada e unificada do seu HyperPod cluster, facilitando o monitoramento proativo, a solução de problemas e a otimização de suas cargas de trabalho de treinamento distribuídas.

**dica**  
Para encontrar exemplos e soluções práticas, veja também o [SageMaker HyperPodworkshop](https://catalog.workshops.aws/sagemaker-hyperpod).

![\[Uma visão geral da configuração SageMaker HyperPod com o Amazon Managed Service para Prometheus e Amazon Managed Grafana.\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Figura: Este diagrama de arquitetura mostra uma visão geral da configuração SageMaker HyperPod com o Amazon Managed Service para Prometheus e o Amazon Managed Grafana.

Continue com os tópicos a seguir para configurar a observabilidade SageMaker HyperPod do cluster.

**Topics**
+ [Pré-requisitos para a observabilidade do cluster SageMaker HyperPod](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Instalando pacotes de exportação de métricas em seu cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Validando a configuração do Prometheus no nó principal de um cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Configurar um espaço de trabalho do Amazon Managed Grafana](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Referência de métricas exportadas](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Métricas do Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)