

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Observabilidad de clústeres y tareas
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster"></a>

Existen dos opciones para monitorear SageMaker HyperPod los clústeres:

**El complemento de SageMaker HyperPod observabilidad**: SageMaker HyperPod proporciona un out-of-the-box panel de control completo que le brinda información sobre las tareas de desarrollo del modelo básico (FM) y los recursos del clúster. Esta solución de observabilidad unificada publica automáticamente métricas clave en Amazon Managed Service para Prometheus y las muestra en los paneles de Amazon Managed Grafana. Los paneles están optimizados específicamente para el desarrollo del FM y abarcan en profundidad el estado del hardware, la utilización de los recursos y el rendimiento de las tareas. Con este complemento, puede consolidar los datos de estado y rendimiento de NVIDIA DCGM, los exportadores de nodos de Kubernetes a nivel de instancia, el adaptador Elastic Fabric, los sistemas de archivos integrados, Kubernetes, Kueue y los operadores de tareas. APIs SageMaker HyperPod 

**Amazon CloudWatch Insights**: Amazon CloudWatch Insights recopila métricas para los recursos informáticos, como la CPU, la memoria, el disco y la red. Información de contenedores también proporciona información de diagnóstico, como, por ejemplo, errores de reinicio de contenedores, para ayudarlo a aislar problemas y solucionarlos rápidamente. También puede configurar CloudWatch alarmas en las métricas que recopila Container Insights.

**Topics**
+ [SageMaker HyperPod Observabilidad de Amazon con Grafana gestionada por Amazon y Amazon Managed Service para Prometheus](sagemaker-hyperpod-observability-addon.md)
+ [Observabilidad con Amazon CloudWatch](sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.md)