Observabilidad de clústeres y tareas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Observabilidad de clústeres y tareas

Existen dos opciones para monitorear SageMaker HyperPod los clústeres:

El complemento de SageMaker HyperPod observabilidad: SageMaker HyperPod proporciona un out-of-the-box panel de control completo que le brinda información sobre las tareas de desarrollo del modelo básico (FM) y los recursos del clúster. Esta solución de observabilidad unificada publica automáticamente las métricas clave en Amazon Managed Service for Prometheus y las muestra en los paneles de Amazon Managed Grafana. Los cuadros de mando están optimizados específicamente para el desarrollo de la FM y abarcan en profundidad el estado del hardware, la utilización de los recursos y el rendimiento a nivel de las tareas. Con este complemento, puede consolidar los datos de estado y rendimiento de NVIDIA DCGM, los exportadores de nodos de Kubernetes a nivel de instancia, el adaptador Elastic Fabric, los sistemas de archivos integrados, Kubernetes, Kueue y los operadores de tareas. APIs SageMaker HyperPod

Amazon CloudWatch Insights: Amazon CloudWatch Insights recopila métricas para los recursos informáticos, como la CPU, la memoria, el disco y la red. Información de contenedores también proporciona información de diagnóstico, como, por ejemplo, errores de reinicio de contenedores, para ayudarlo a aislar problemas y solucionarlos rápidamente. También puede configurar CloudWatch alarmas en las métricas que recopila Container Insights.