Métricas do Amazon SageMaker HyperPod Slurm - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Métricas do Amazon SageMaker HyperPod Slurm

SageMaker HyperPod A Amazon fornece um conjunto de CloudWatch métricas da Amazon que você pode usar para monitorar a integridade e o desempenho dos seus HyperPod clusters. Essas métricas são coletadas do gerenciador de carga de trabalho do Slurm em execução em seus HyperPod clusters e estão disponíveis no namespace. /aws/sagemaker/Clusters CloudWatch

Métricas em nível de cluster

As seguintes métricas em nível de cluster estão disponíveis para. HyperPod Essas métricas usam a ClusterId dimensão para identificar o HyperPod cluster específico.

CloudWatch nome da métrica Observações Nome de métricas do Amazon EKS Container Insights
cluster_node_count O número total de nós no cluster. cluster_node_count
cluster_idle_node_count O número de nós ociosos no cluster. N/D
cluster_failed_node_count O número de nós com falha no cluster. cluster_failed_node_count
cluster_cpu_count Total de núcleos de CPU no cluster. node_cpu_limit
cluster_idle_cpu_count Número de núcleos de CPU ociosos no cluster. N/D
cluster_gpu_count Total GPUs no cluster node_gpu_limit
cluster_idle_gpu_count Número de inativos GPUs no cluster N/D
cluster_running_task_count Número total de trabalhos em execução do Slurm no cluster. N/D
cluster_pending_task_count Número total de trabalhos pendentes do Slurm no cluster. N/D
cluster_preempted_task_count Número total de trabalhos antecipados do Slurm no cluster. N/D
cluster_avg_task_wait_time Tempo médio de espera de trabalhos do Slurm no cluster. N/D
cluster_max_task_wait_time Tempo máximo de espera de trabalhos do Slurm no cluster. N/D

Métricas em nível de instância

As seguintes métricas em nível de instância estão disponíveis para. HyperPod Essas métricas também usam a ClusterId dimensão para identificar o HyperPod cluster específico.

CloudWatch nome da métrica Observações Nome de métricas do Amazon EKS Container Insights
node_gpu_utilization Utilização média de GPU em todas as instâncias. node_gpu_utilization
node_gpu_memory_utilization Utilização média de memória de GPU em todas as instâncias. node_gpu_memory_utilization
node_cpu_utilization Utilização média de CPU em todas as instâncias. node_cpu_utilization
node_memory_utilization Utilização média de memória em todas as instâncias. node_memory_utilization