翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod Slurm メトリクス
Amazon SageMaker HyperPod には、HyperPod クラスターのヘルスとパフォーマンスをモニタリングするために使用できる一連の Amazon CloudWatch メトリクスが用意されています。これらのメトリクスは、HyperPod クラスターで実行されている Slurm ワークロードマネージャーから収集され、/aws/sagemaker/ClustersCloudWatch 名前空間で使用できます。
クラスターレベルのメトリクス
HyperPod では、次のクラスターレベルのメトリクスを使用できます。これらのメトリクスは、 ClusterIdディメンションを使用して特定の HyperPod クラスターを識別します。
| CloudWatch メトリクス名 | メモ | Amazon EKS Container Insights メトリクス名 |
|---|---|---|
| cluster_node_count | クラスター内のノードの合計数 | cluster_node_count |
| cluster_idle_node_count | クラスター内のアイドル状態のノードの数 | 該当なし |
| cluster_failed_node_count | クラスター内の障害が発生したノードの数 | cluster_failed_node_count |
| cluster_cpu_count | クラスター内の CPU コアの合計 | node_cpu_limit |
| cluster_idle_cpu_count | クラスター内のアイドル状態の CPU コアの数 | 該当なし |
| cluster_gpu_count | クラスター内の合計 GPUs | node_gpu_limit |
| cluster_idle_gpu_count | クラスター内のアイドル状態の GPUs の数 | 該当なし |
| cluster_running_task_count | クラスターで実行中の Slurm ジョブの数 | 該当なし |
| cluster_pending_task_count | クラスター内の保留中の Slurm ジョブの数 | 該当なし |
| cluster_preempted_task_count | クラスター内のプリエンプションされた Slurm ジョブの数 | 該当なし |
| cluster_avg_task_wait_time | クラスター内の Slurm ジョブの平均待機時間 | 該当なし |
| cluster_max_task_wait_time | クラスター内の Slurm ジョブの最大待機時間 | 該当なし |
インスタンスレベルのメトリクス
HyperPod では、次のインスタンスレベルのメトリクスを使用できます。これらのメトリクスは、 ClusterIdディメンションを使用して特定の HyperPod クラスターを識別します。
| CloudWatch メトリクス名 | メモ | Amazon EKS Container Insights メトリクス名 |
|---|---|---|
| node_gpu_utilization | すべてのインスタンスの平均 GPU 使用率 | node_gpu_utilization |
| node_gpu_memory_utilization | すべてのインスタンスの平均 GPU メモリ使用率 | node_gpu_memory_utilization |
| node_cpu_utilization | すべてのインスタンスの平均 CPU 使用率 | node_cpu_utilization |
| node_memory_utilization | すべてのインスタンスの平均メモリ使用率 | node_memory_utilization |