Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker HyperPodObservabilidad de Amazon con Amazon Managed Grafana y Amazon Managed Service para Prometheus
Amazon SageMaker HyperPod (SageMaker HyperPod) proporciona un out-of-the-box panel de control completo que le proporciona información sobre las tareas de desarrollo del modelo básico (FM) y los recursos del clúster. Esta solución de observabilidad unificada publica automáticamente las métricas clave en Amazon Managed Service for Prometheus y las muestra en los paneles de Amazon Managed Grafana. Los cuadros de mando están optimizados específicamente para el desarrollo de la FM y abarcan en profundidad el estado del hardware, la utilización de los recursos y el rendimiento a nivel de las tareas. Con este complemento, puede consolidar los datos de estado y rendimiento de NVIDIA DCGM, los exportadores de nodos de Kubernetes a nivel de instancia, el adaptador Elastic Fabric, los sistemas de archivos integrados, Kubernetes, Kueue y los operadores de tareas. APIs SageMaker HyperPod
Temas
Configuración del complemento SageMaker HyperPod de observabilidad
Explorando las métricas de los SageMaker HyperPod clústeres en Amazon Managed Grafana
Personalización SageMaker HyperPod de las métricas, los paneles y las alertas del clúster
Solución de problemas con el complemento de SageMaker HyperPod observabilidad de Amazon