As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Métricas do Amazon SageMaker HyperPod Slurm
SageMaker HyperPod A Amazon fornece um conjunto de CloudWatch métricas da Amazon que você pode usar para monitorar a integridade e o desempenho dos seus HyperPod clusters. Essas métricas são coletadas do gerenciador de carga de trabalho do Slurm em execução em seus HyperPod clusters e estão disponíveis no namespace. /aws/sagemaker/Clusters CloudWatch
Métricas em nível de cluster
As seguintes métricas em nível de cluster estão disponíveis para. HyperPod Essas métricas usam a ClusterId dimensão para identificar o HyperPod cluster específico.
| CloudWatch nome da métrica | Observações | Nome de métricas do Amazon EKS Container Insights |
|---|---|---|
| cluster_node_count | O número total de nós no cluster. | cluster_node_count |
| cluster_idle_node_count | O número de nós ociosos no cluster. | N/D |
| cluster_failed_node_count | O número de nós com falha no cluster. | cluster_failed_node_count |
| cluster_cpu_count | Total de núcleos de CPU no cluster. | node_cpu_limit |
| cluster_idle_cpu_count | Número de núcleos de CPU ociosos no cluster. | N/D |
| cluster_gpu_count | Total GPUs no cluster | node_gpu_limit |
| cluster_idle_gpu_count | Número de inativos GPUs no cluster | N/D |
| cluster_running_task_count | Número total de trabalhos em execução do Slurm no cluster. | N/D |
| cluster_pending_task_count | Número total de trabalhos pendentes do Slurm no cluster. | N/D |
| cluster_preempted_task_count | Número total de trabalhos antecipados do Slurm no cluster. | N/D |
| cluster_avg_task_wait_time | Tempo médio de espera de trabalhos do Slurm no cluster. | N/D |
| cluster_max_task_wait_time | Tempo máximo de espera de trabalhos do Slurm no cluster. | N/D |
Métricas em nível de instância
As seguintes métricas em nível de instância estão disponíveis para. HyperPod Essas métricas também usam a ClusterId dimensão para identificar o HyperPod cluster específico.
| CloudWatch nome da métrica | Observações | Nome de métricas do Amazon EKS Container Insights |
|---|---|---|
| node_gpu_utilization | Utilização média de GPU em todas as instâncias. | node_gpu_utilization |
| node_gpu_memory_utilization | Utilização média de memória de GPU em todas as instâncias. | node_gpu_memory_utilization |
| node_cpu_utilization | Utilização média de CPU em todas as instâncias. | node_cpu_utilization |
| node_memory_utilization | Utilização média de memória em todas as instâncias. | node_memory_utilization |