

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# SageMaker HyperPod monitoreo de recursos de clústeres
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

Para lograr una observabilidad completa de los recursos y componentes de software de su SageMaker HyperPod clúster, integre el clúster con [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) y [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. La integración con Amazon Managed Service para Prometheus permite exportar métricas relacionadas con los recursos de HyperPod su clúster, lo que proporciona información sobre su rendimiento, uso y estado. La integración con Amazon Managed Grafana permite la visualización de estas métricas a través de varios paneles de Grafana que ofrecen una interfaz intuitiva para supervisar y analizar el comportamiento del clúster. Al aprovechar estos servicios, obtiene una visión centralizada y unificada de su HyperPod clúster, lo que facilita la supervisión proactiva, la solución de problemas y la optimización de sus cargas de trabajo de formación distribuidas.

**sugerencia**  
[Para encontrar ejemplos y soluciones prácticos, consulte también el SageMaker HyperPod taller.](https://catalog.workshops.aws/sagemaker-hyperpod)

![\[Información general sobre la configuración SageMaker HyperPod con Amazon Managed Service para Prometheus y Amazon Managed Grafana.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Figura: Este diagrama de arquitectura muestra una descripción general de la configuración SageMaker HyperPod con Amazon Managed Service for Prometheus y Amazon Managed Grafana.

Continúe con los siguientes temas para configurar la observabilidad del clúster. SageMaker HyperPod 

**Topics**
+ [Requisitos previos para la observabilidad de los SageMaker HyperPod conglomerados](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Instalación de paquetes de exportación de métricas en su clúster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Validación de la configuración de Prometheus en el nodo principal de un clúster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Configuración de un espacio de trabajo de Amazon Managed Grafana](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Referencia de métricas exportadas](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Métricas de Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)