Amazon SageMaker HyperPod Slurm 指标
Amazon SageMaker HyperPod 提供了一组 Amazon CloudWatch 指标,可用于监控 HyperPod 集群的运行状况和性能。这些指标是通过 HyperPod 集群上运行的 Slurm 工作负载管理器收集的,并且在 /aws/sagemaker/Clusters CloudWatch 命名空间中可用。
集群级别指标
以下集群级别指标可用于 HyperPod。这些指标使用 ClusterId 维度来标识特定的 HyperPod 集群。
| CloudWatch 指标名称 | 备注 | Amazon EKS Container Insights 指标名称 |
|---|---|---|
| cluster_node_count | 集群中的节点总数 | cluster_node_count |
| cluster_idle_node_count | 集群中的空闲节点数 | 不适用 |
| cluster_failed_node_count | 集群中的故障节点数 | cluster_failed_node_count |
| cluster_cpu_count | 集群中的 CPU 内核总数 | node_cpu_limit |
| cluster_idle_cpu_count | 集群中的空闲 CPU 内核数 | 不适用 |
| cluster_gpu_count | 集群中的 GPU 总数 | node_gpu_limit |
| cluster_idle_gpu_count | 集群中的空闲 GPU 数 | 不适用 |
| cluster_running_task_count | 集群中正在运行的 Slurm 作业数 | 不适用 |
| cluster_pending_task_count | 集群中的待处理 Slurm 作业数 | 不适用 |
| cluster_preempted_task_count | 集群中的已抢占 Slurm 作业数 | 不适用 |
| cluster_avg_task_wait_time | 集群中的 Slurm 作业的平均等待时间 | 不适用 |
| cluster_max_task_wait_time | 集群中的 Slurm 作业的最长等待时间 | 不适用 |
实例级别指标
以下实例级别指标可用于 HyperPod。这些指标也使用 ClusterId 维度来标识特定的 HyperPod 集群。
| CloudWatch 指标名称 | 备注 | Amazon EKS Container Insights 指标名称 |
|---|---|---|
| node_gpu_utilization | 所有实例的平均 GPU 利用率 | node_gpu_utilization |
| node_gpu_memory_utilization | 所有实例的平均 GPU 内存利用率 | node_gpu_memory_utilization |
| node_cpu_utilization | 所有实例的平均 CPU 利用率 | node_cpu_utilization |
| node_memory_utilization | 所有实例的平均内存利用率 | node_memory_utilization |