Métricas em nível de cluster Métricas em nível de instância

Métricas do Amazon SageMaker HyperPod Slurm

SageMaker HyperPod A Amazon fornece um conjunto de CloudWatch métricas da Amazon que você pode usar para monitorar a integridade e o desempenho dos seus HyperPod clusters. Essas métricas são coletadas do gerenciador de carga de trabalho do Slurm em execução em seus HyperPod clusters e estão disponíveis no namespace. /aws/sagemaker/Clusters CloudWatch

Métricas em nível de cluster

As seguintes métricas em nível de cluster estão disponíveis para. HyperPod Essas métricas usam a ClusterId dimensão para identificar o HyperPod cluster específico.

CloudWatch nome da métrica	Observações	Nome de métricas do Amazon EKS Container Insights
cluster_node_count	O número total de nós no cluster.	cluster_node_count
cluster_idle_node_count	O número de nós ociosos no cluster.	N/A
cluster_failed_node_count	O número de nós com falha no cluster.	cluster_failed_node_count
cluster_cpu_count	Total de núcleos de CPU no cluster.	node_cpu_limit
cluster_idle_cpu_count	Número de núcleos de CPU ociosos no cluster.	N/A
cluster_gpu_count	Total de GPUs no cluster.	node_gpu_limit
cluster_idle_gpu_count	Número de GPUs ociosas no cluster.	N/A
cluster_running_task_count	Número total de trabalhos em execução do Slurm no cluster.	N/A
cluster_pending_task_count	Número total de trabalhos pendentes do Slurm no cluster.	N/A
cluster_preempted_task_count	Número total de trabalhos antecipados do Slurm no cluster.	N/A
cluster_avg_task_wait_time	Tempo médio de espera de trabalhos do Slurm no cluster.	N/A
cluster_max_task_wait_time	Tempo máximo de espera de trabalhos do Slurm no cluster.	N/A

Métricas em nível de instância

As seguintes métricas em nível de instância estão disponíveis para. HyperPod Essas métricas também usam a ClusterId dimensão para identificar o HyperPod cluster específico.

CloudWatch nome da métrica	Observações	Nome de métricas do Amazon EKS Container Insights
node_gpu_utilization	Utilização média de GPU em todas as instâncias.	node_gpu_utilization
node_gpu_memory_utilization	Utilização média de memória de GPU em todas as instâncias.	node_gpu_memory_utilization
node_cpu_utilization	Utilização média de CPU em todas as instâncias.	node_cpu_utilization
node_memory_utilization	Utilização média de memória em todas as instâncias.	node_memory_utilization

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Referência de métricas exportadas

Eventos do cluster Slurm