Amazon SageMaker HyperPod Slurm のメトリクス
Amazon SageMaker HyperPod には、HyperPod クラスターのヘルスとパフォーマンスをモニタリングするために使用できる一連の Amazon CloudWatch メトリクスが提供されています。これらのメトリクスは、HyperPod クラスターで実行されている Slurm ワークロードマネージャーから収集され、/aws/sagemaker/Clusters CloudWatch 名前空間で使用できます。
クラスターレベルのメトリクス
HyperPod では、次のクラスターレベルのメトリクスを使用できます。これらのメトリクスは、ClusterId ディメンションを使用して特定の HyperPod クラスターを識別します。
| CloudWatch メトリクス名 | メモ | Amazon EKS Container Insights メトリクス名 |
|---|---|---|
| cluster_node_count | クラスター内のノードの合計数 | cluster_node_count |
| cluster_idle_node_count | クラスター内のアイドルノード数 | 該当なし |
| cluster_failed_node_count | クラスター内の失敗ノードの数 | cluster_failed_node_count |
| cluster_cpu_count | クラスター内の CPU コア合計数 | node_cpu_limit |
| cluster_idle_cpu_count | クラスター内のアイドル CPU 数 | 該当なし |
| cluster_gpu_count | クラスター内の GPU 合計数 | node_gpu_limit |
| cluster_idle_gpu_count | クラスター内のアイドル GPU 数 | 該当なし |
| cluster_running_task_count | クラスター内の実行中の Slurm ジョブ数 | 該当なし |
| cluster_pending_task_count | クラスター内の保留中の Slurm ジョブ数 | 該当なし |
| cluster_preempted_task_count | クラスター内のプリエンプト Slurm ジョブ数 | 該当なし |
| cluster_avg_task_wait_time | クラスター内の Slurm ジョブの平均待機時間 | 該当なし |
| cluster_max_task_wait_time | クラスター内の Slurm ジョブの最大待機時間 | 該当なし |
クラスターレベルのメトリクス
HyperPod では、次のインスタンスレベルのメトリクスを使用できます。これらのメトリクスは、ClusterId ディメンションも使用して特定の HyperPod クラスターを識別します。
| CloudWatch メトリクス名 | メモ | Amazon EKS Container Insights メトリクス名 |
|---|---|---|
| node_gpu_utilization | すべてのインスタンスの平均 GPU 使用率 | node_gpu_utilization |
| node_gpu_memory_utilization | すべてのインスタンスの平均 GPU メモリ使用率 | node_gpu_memory_utilization |
| node_cpu_utilization | すべてのインスタンスの平均 CPU 使用率 | node_cpu_utilization |
| node_memory_utilization | すべてのインスタンスの平均メモリ使用率 | node_memory_utilization |