Métricas de nivel de clúster Métricas de nivel de instancia

Métricas de Amazon SageMaker HyperPod Slurm

Amazon SageMaker HyperPod proporciona un conjunto de CloudWatch métricas de Amazon que puedes usar para monitorear el estado y el rendimiento de tus HyperPod clústeres. Estas métricas se recopilan del administrador de cargas de trabajo Slurm que se ejecuta en sus HyperPod clústeres y están disponibles en el /aws/sagemaker/Clusters CloudWatch espacio de nombres.

Métricas de nivel de clúster

Están disponibles las siguientes métricas a nivel de clúster para. HyperPod Estas métricas utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod

CloudWatch nombre de la métrica	Notas	Nombre de la métrica de Información de contenedores de Amazon EKS
cluster_node_count	Número total de nodos en el clúster	cluster_node_count
cluster_idle_node_count	Número de nodos inactivos en el clúster	N/A
cluster_failed_node_count	Número de nodos fallidos en el clúster	cluster_failed_node_count
cluster_cpu_count	Número total de núcleos de CPU del clúster	node_cpu_limit
cluster_idle_cpu_count	Número de nodos de CPU inactivos en el clúster	N/A
cluster_gpu_count	Número total de GPU en el clúster	node_gpu_limit
cluster_idle_gpu_count	Número de GPU inactivos en el clúster	N/A
cluster_running_task_count	Número de trabajos de Slurm en ejecución en el clúster	N/A
cluster_pending_task_count	Número de trabajos de Slurm pendientes en el clúster	N/A
cluster_preempted_task_count	Número de trabajos de Slurm antepuestos en el clúster	N/A
cluster_avg_task_wait_time	Tiempo de espera medio de los trabajos de Slurm en el clúster	N/A
cluster_max_task_wait_time	Tiempo de espera máximo de los trabajos de Slurm en el clúster	N/A

Métricas de nivel de instancia

Están disponibles las siguientes métricas a nivel de instancia para. HyperPod Estas métricas también utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod

CloudWatch nombre de la métrica	Notas	Nombre de la métrica de Información de contenedores de Amazon EKS
node_gpu_utilization	Utilización media de la GPU en todas las instancias	node_gpu_utilization
node_gpu_memory_utilization	Utilización media de la memoria de la GPU en todas las instancias	node_gpu_memory_utilization
node_cpu_utilization	Utilización media de la CPU en todas las instancias	node_cpu_utilization
node_memory_utilization	Utilización media de la memoria en todas las instancias	node_memory_utilization

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Referencia de métricas exportadas

Eventos del clúster de Slurm