Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Métricas de Amazon SageMaker HyperPod Slurm
Amazon SageMaker HyperPod proporciona un conjunto de CloudWatch métricas de Amazon que puedes usar para monitorear el estado y el rendimiento de tus HyperPod clústeres. Estas métricas se recopilan del administrador de cargas de trabajo Slurm que se ejecuta en sus HyperPod clústeres y están disponibles en el /aws/sagemaker/Clusters CloudWatch espacio de nombres.
Métricas de nivel de clúster
Están disponibles las siguientes métricas a nivel de clúster para. HyperPod Estas métricas utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod
| CloudWatch nombre de la métrica | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS |
|---|---|---|
| cluster_node_count | Número total de nodos en el clúster | cluster_node_count |
| cluster_idle_node_count | Número de nodos inactivos en el clúster | N/A |
| cluster_failed_node_count | Número de nodos fallidos en el clúster | cluster_failed_node_count |
| cluster_cpu_count | Número total de núcleos de CPU del clúster | node_cpu_limit |
| cluster_idle_cpu_count | Número de nodos de CPU inactivos en el clúster | N/A |
| cluster_gpu_count | Total GPUs del clúster | node_gpu_limit |
| cluster_idle_gpu_count | Número de inactivos GPUs en el clúster | N/A |
| cluster_running_task_count | Número de trabajos de Slurm en ejecución en el clúster | N/A |
| cluster_pending_task_count | Número de trabajos de Slurm pendientes en el clúster | N/A |
| cluster_preempted_task_count | Número de trabajos de Slurm antepuestos en el clúster | N/A |
| cluster_avg_task_wait_time | Tiempo de espera medio de los trabajos de Slurm en el clúster | N/A |
| cluster_max_task_wait_time | Tiempo de espera máximo de los trabajos de Slurm en el clúster | N/A |
Métricas de nivel de instancia
Están disponibles las siguientes métricas a nivel de instancia para. HyperPod Estas métricas también utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod
| CloudWatch nombre de la métrica | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS |
|---|---|---|
| node_gpu_utilization | Utilización media de la GPU en todas las instancias | node_gpu_utilization |
| node_gpu_memory_utilization | Utilización media de la memoria de la GPU en todas las instancias | node_gpu_memory_utilization |
| node_cpu_utilization | Utilización media de la CPU en todas las instancias | node_cpu_utilization |
| node_memory_utilization | Utilización media de la memoria en todas las instancias | node_memory_utilization |