制限付きインスタンスグループのメトリクスの可用性トレーニングメトリクス推論メトリクスタスクガバナンスメトリクススケーリングメトリクスクラスターメトリクスインスタンスメトリクス高速コンピューティングメトリクスネットワークメトリクスファイルシステムのメトリクス

SageMaker HyperPod クラスターのメトリクス

Amazon SageMaker HyperPod (SageMaker HyperPod) は、9 つの異なるカテゴリにわたるさまざまなメトリクスを Amazon Managed Service for Prometheus ワークスペースに公開します。すべてのメトリクスがデフォルトで有効になっているわけではなく、Amazon Managed Grafana ワークスペースに表示されるわけでもありません。オブザーバビリティアドオンのインストール時にデフォルトで有効になっているメトリクス、より詳細なクラスター情報に対して有効にできる追加のメトリクスがあるカテゴリ、Amazon Managed Grafana ワークスペースに表示される場所は、次の表のとおりです。

メトリクスカテゴリ	デフォルトで有効	その他の高度なメトリクスを利用できるか	どの Grafana ダッシュボードで利用できるか
トレーニングメトリクス	はい	はい	トレーニング
推論メトリクス	はい	いいえ	推測
タスクガバナンスメトリクス	いいえ	はい	なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。
スケーリングメトリクス	いいえ	はい	なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。
クラスターメトリクス	はい	はい	クラスター
インスタンスメトリクス	はい	はい	クラスター
高速コンピューティングメトリクス	はい	はい	タスク、クラスター
ネットワークメトリクス	いいえ	はい	クラスター
ファイルシステム	はい	いいえ	ファイルシステム

次の表では、SageMaker HyperPod クラスターのモニタリングに使用できるメトリクスをカテゴリ別にまとめています。

制限付きインスタンスグループのメトリクスの可用性

クラスターに制限付きインスタンスグループが含まれている場合、以下の例外と考慮事項を除いて、ほとんどのメトリクスカテゴリは制限付きノードで使用できます。選択した任意のメトリクスにアラートを設定することもできます。

メトリクスカテゴリ	RIG ノードで使用できますか?	注意事項
トレーニングメトリクス	はい	Kubeflow および Kubernetes ポッドメトリクスが収集されます。高度なトレーニング KPI メトリクス (トレーニングメトリクスエージェントから) は、RIG ノードからは使用できません。
推論メトリクス	いいえ	推論ワークロードは、制限付きインスタンスグループではサポートされていません。
タスクガバナンスメトリクス	いいえ	キューメトリクスは、標準ノードからのみ収集されます。
スケーリングメトリクス	いいえ	KEDA メトリクスは、標準ノードからのみ収集されます。
クラスターメトリクス	はい	Kube ステートメトリクスと API サーバーメトリクスを使用できます。Kube ステートメトリクスは標準ノードで優先的にスケジュールされますが、RIG 専用クラスターの制限付きノードで実行できます。
インスタンスメトリクス	はい	Node Exporter および cAdvisor メトリクスは、制限付きノードを含むすべてのノードで収集されます。
高速コンピューティングメトリクス	はい	DCGM Exporter は GPU 対応の制限付きノードで実行されます。Neuron Monitor は、アドバンストモードが有効になっている場合、Neuron が有効な制限付きノードで実行されます。
ネットワークメトリクス	はい	アドバンストモードが有効になっている場合、EFA Exporter は EFA 対応の制限付きノードで実行されます。
ファイルシステムのメトリクス	はい	FSx for Lustre クラスター使用率メトリクスは、制限付きインスタンスグループでサポートされています。

注記

Fluent Bit を使用したコンテナログの収集は、制限されたノードにはデプロイされません。制限されたノードからのクラスターログは、オブザーバビリティアドオンとは無関係に SageMaker HyperPod プラットフォームから入手できます。これらのログは、クラスターログダッシュボードで表示できます。

トレーニングメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターで実行されたトレーニングタスクのパフォーマンスを追跡します。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
Kubeflow メトリクス	https://github.com/kubeflow/trainer	はい	Kubeflow
Kubernetes ポッドメトリクス	https://github.com/kubernetes/kube-state-metrics	はい	Kubernetes
`training_uptime_percentage`	合計ウィンドウサイズからのトレーニングタイムアウトの割合	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_manual_recovery_count`	ジョブで実行された手動再起動の合計数	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_manual_downtime_ms`	手動介入によりジョブが停止したミリ秒単位の合計時間	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_auto_recovery_count`	自動復旧の合計数	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_auto_recovery_downtime`	障害復旧中のミリ秒単位の合計インフラストラクチャオーバーヘッド時間	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_fault_count`	トレーニング中に発生した障害の合計数	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_fault_type_count`	タイプ別の障害分布	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_fault_recovery_time_ms`	障害のタイプごとのミリ秒単位の復旧時間	いいえ	SageMaker HyperPod トレーニングオペレーター
`training_time_ms`	実際のトレーニングに費やされたミリ秒単位の合計時間	いいえ	SageMaker HyperPod トレーニングオペレーター

推論メトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターの推論タスクのパフォーマンスを追跡します。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
`model_invocations_total`	モデルへの呼び出しリクエストの合計数	はい	SageMaker HyperPod 推論演算子
`model_errors_total`	モデル呼び出し中のエラーの合計数	はい	SageMaker HyperPod 推論演算子
`model_concurrent_requests`	アクティブな同時モデルリクエスト数	はい	SageMaker HyperPod 推論演算子
`model_latency_milliseconds`	ミリ秒単位のモデル呼び出し遅延	はい	SageMaker HyperPod 推論演算子
`model_ttfb_milliseconds`	モデルの最初のバイトまでのレイテンシーのミリ秒単位の時間	はい	SageMaker HyperPod 推論演算子
TGI	これらのメトリクスは、TGI のパフォーマンスのモニタリング、デプロイの自動スケーリング、ボトルネックの特定に役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md を参照してください。	はい	モデルコンテナ
LMI	これらのメトリクスは、LMI のパフォーマンスをモニタリングし、ボトルネックを特定するのに役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md を参照してください。	はい	モデルコンテナ

タスクガバナンスメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターのタスクガバナンスとリソース割り当てをモニタリングします。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
Kueue	https://kueue.sigs.k8s.io/docs/reference/metrics/ を参照してください。	いいえ	Kueue

スケーリングメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターの自動スケーリングの動作とパフォーマンスをモニタリングします。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
KEDA オペレーターメトリクス	https://keda.sh/docs/2.17/integrations/prometheus/#operator を参照してください。	いいえ	Kubernetes イベント駆動型オートスケーラー (KEDA)
KEDA Webhook メトリクス	https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks を参照してください。	いいえ	Kubernetes イベント駆動型オートスケーラー (KEDA)
KEDA メトリクスサーバーのメトリクス	https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server を参照してください。	いいえ	Kubernetes イベント駆動型オートスケーラー (KEDA)

クラスターメトリクス

これらのメトリクスを使用して、クラスター全体のヘルスとリソース割り当てをモニタリングします。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
クラスターヘルス	Kubernetes API サーバーメトリクス。https://kubernetes.io/docs/reference/instrumentation/metrics/ を参照してください。	はい	Kubernetes
Kubestate	https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources を参照してください。	制限あり	Kubernetes
KubeState Advanced	https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources を参照してください。	いいえ	Kubernetes

インスタンスメトリクス

これらのメトリクスを使用して、個々のインスタンスのパフォーマンスとヘルスをモニタリングします。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
ノードのメトリクス	https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default を参照してください。	はい	Kubernetes
コンテナのメトリクス	Cadvisor が公開するコンテナメトリクス。https://github.com/google/cadvisor を参照してください。	はい	Kubernetes

高速コンピューティングメトリクス

これらのメトリクスを使用して、クラスター内の個々の高速コンピューティングデバイスのパフォーマンス、ヘルス、使用率をモニタリングします。

注記

クラスターで MIG (マルチインスタンス GPU) を使用した GPU パーティショニングが有効になっている場合、DCGM メトリクスは個々の MIG インスタンスをモニタリングするためのパーティションレベルの粒度を自動的に提供します。各 MIG パーティションは、温度、電力、メモリ使用率、コンピューティングアクティビティに関する独自のメトリクスを持つ個別の GPU デバイスとして公開されます。これにより、各 GPU パーティションのリソースの使用状況とヘルスを個別に追跡できるため、少数の GPU リソースで実行されているワークロードを正確にモニタリングできます。GPU パーティショニングの設定の詳細については、「」を参照してくださいAmazon SageMaker HyperPod での GPU パーティションの使用 HyperPod。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
NVIDIA GPU	DCGM メトリクス。https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv を参照してください。	制限あり	NVIDIA Data Center GPU Manager (DCGM)
NVIDIA GPU (advanced)	次の CSV ファイルでコメントアウトされる DCGM メトリクス。 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv	いいえ	NVIDIA Data Center GPU Manager (DCGM)
AWS Trainium	Neuron メトリクス。https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters を参照してください。	いいえ	AWS Neuron モニター

ネットワークメトリクス

これらのメトリクスを使用して、クラスター内の Elastic Fabric Adapter (EFA) のパフォーマンスとヘルスをモニタリングします。

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
EFA	https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md を参照してください。	いいえ	Elastic Fabric Adapter

ファイルシステムのメトリクス

メトリクス名またはタイプ	説明	デフォルトで有効	メトリクスソース
ファイルシステム	Amazon FSx for Lustre CloudWatch メトリクスを使用する方法: Amazon CloudWatch を使用したモニタリング	はい	Amazon FSx for Lustre

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

カスタムメトリクス

事前設定されたアラート