Amazon SageMaker HyperPod Slurm のメトリクス - Amazon SageMaker AI

Amazon SageMaker HyperPod Slurm のメトリクス

Amazon SageMaker HyperPod には、HyperPod クラスターのヘルスとパフォーマンスをモニタリングするために使用できる一連の Amazon CloudWatch メトリクスが提供されています。これらのメトリクスは、HyperPod クラスターで実行されている Slurm ワークロードマネージャーから収集され、/aws/sagemaker/Clusters CloudWatch 名前空間で使用できます。

クラスターレベルのメトリクス

HyperPod では、次のクラスターレベルのメトリクスを使用できます。これらのメトリクスは、ClusterId ディメンションを使用して特定の HyperPod クラスターを識別します。

CloudWatch メトリクス名 メモ Amazon EKS Container Insights メトリクス名
cluster_node_count クラスター内のノードの合計数 cluster_node_count
cluster_idle_node_count クラスター内のアイドルノード数 該当なし
cluster_failed_node_count クラスター内の失敗ノードの数 cluster_failed_node_count
cluster_cpu_count クラスター内の CPU コア合計数 node_cpu_limit
cluster_idle_cpu_count クラスター内のアイドル CPU 数 該当なし
cluster_gpu_count クラスター内の GPU 合計数 node_gpu_limit
cluster_idle_gpu_count クラスター内のアイドル GPU 数 該当なし
cluster_running_task_count クラスター内の実行中の Slurm ジョブ数 該当なし
cluster_pending_task_count クラスター内の保留中の Slurm ジョブ数 該当なし
cluster_preempted_task_count クラスター内のプリエンプト Slurm ジョブ数 該当なし
cluster_avg_task_wait_time クラスター内の Slurm ジョブの平均待機時間 該当なし
cluster_max_task_wait_time クラスター内の Slurm ジョブの最大待機時間 該当なし

クラスターレベルのメトリクス

HyperPod では、次のインスタンスレベルのメトリクスを使用できます。これらのメトリクスは、ClusterId ディメンションも使用して特定の HyperPod クラスターを識別します。

CloudWatch メトリクス名 メモ Amazon EKS Container Insights メトリクス名
node_gpu_utilization すべてのインスタンスの平均 GPU 使用率 node_gpu_utilization
node_gpu_memory_utilization すべてのインスタンスの平均 GPU メモリ使用率 node_gpu_memory_utilization
node_cpu_utilization すべてのインスタンスの平均 CPU 使用率 node_cpu_utilization
node_memory_utilization すべてのインスタンスの平均メモリ使用率 node_memory_utilization