SageMaker HyperPod クラスターメトリクス - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod クラスターメトリクス

Amazon SageMaker HyperPod (SageMaker HyperPod) は、9 つの異なるカテゴリにわたるさまざまなメトリクスを Amazon Managed Service for Prometheus ワークスペースに発行します。すべてのメトリクスがデフォルトで有効になっているわけではなく、Amazon Managed Grafana ワークスペースに表示されるわけでもありません。次の表は、オブザーバビリティアドオンのインストール時にデフォルトで有効になっているメトリクス、より詳細なクラスター情報に対して有効にできる追加のメトリクスがあるカテゴリ、Amazon Managed Grafana ワークスペースに表示される場所を示しています。

メトリクスカテゴリ デフォルトでは有効になっていますか? その他の高度なメトリクスを利用できますか? どの Grafana ダッシュボードで利用できますか?
トレーニングメトリクス はい はい トレーニング
推論メトリクス はい いいえ 推論
タスクガバナンスメトリクス いいえ はい なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。
メトリクスのスケーリング いいえ はい なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。
クラスターメトリクス はい はい クラスター
インスタンスメトリクス はい はい クラスター
高速コンピューティングメトリクス はい はい タスク、クラスター
ネットワークメトリクス いいえ はい クラスター
ファイルシステム はい いいえ ファイルシステム

次の表は、SageMaker HyperPod クラスターのモニタリングに使用できるメトリクスをカテゴリ別にまとめたものです。

トレーニングメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターで実行されたトレーニングタスクのパフォーマンスを追跡します。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
Kubeflow メトリクス https://github.com/kubeflow/trainer はい Kubeflow
Kubernetes ポッドメトリクス https://github.com/kubernetes/kube-state-metrics はい Kubernetes
training_uptime_percentage 合計ウィンドウサイズからのトレーニングタイムアウトの割合 いいえ SageMaker HyperPod トレーニングオペレーター
training_manual_recovery_count ジョブで実行された手動再起動の合計数 いいえ SageMaker HyperPod トレーニングオペレーター
training_manual_downtime_ms 手動介入によりジョブが停止したミリ秒単位の合計時間 いいえ SageMaker HyperPod トレーニングオペレーター
training_auto_recovery_count 自動復旧の合計数 いいえ SageMaker HyperPod トレーニングオペレーター
training_auto_recovery_downtime 障害復旧中の合計インフラストラクチャオーバーヘッド時間をミリ秒単位で表示 いいえ SageMaker HyperPod トレーニングオペレーター
training_fault_count トレーニング中に発生した障害の合計数 いいえ SageMaker HyperPod トレーニングオペレーター
training_fault_type_count タイプ別の障害の分布 いいえ SageMaker HyperPod トレーニングオペレーター
training_fault_recovery_time_ms 障害のタイプごとのミリ秒単位の復旧時間 いいえ SageMaker HyperPod トレーニングオペレーター
training_time_ms 実際のトレーニングに費やされたミリ秒単位の合計時間 いいえ SageMaker HyperPod トレーニングオペレーター

推論メトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターの推論タスクのパフォーマンスを追跡します。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
model_invocations_total モデルへの呼び出しリクエストの合計数 はい SageMaker HyperPod 推論演算子
model_errors_total モデル呼び出し中のエラーの合計数 はい SageMaker HyperPod 推論演算子
model_concurrent_requests アクティブな同時モデルリクエスト はい SageMaker HyperPod 推論演算子
model_latency_milliseconds ミリ秒単位のモデル呼び出しレイテンシー はい SageMaker HyperPod 推論演算子
model_ttfb_milliseconds ミリ秒単位の最初のバイトレイテンシーまでのモデル時間 はい SageMaker HyperPod 推論演算子
TGI これらのメトリクスは、TGI のパフォーマンスのモニタリング、デプロイの自動スケーリング、ボトルネックの特定に役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md を参照してください。 はい モデルコンテナ
LMI これらのメトリクスは、LMI のパフォーマンスをモニタリングし、ボトルネックを特定するのに役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md を参照してください。 はい モデルコンテナ

タスクガバナンスメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターのタスクガバナンスとリソース割り当てをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
キュー https://kueue.sigs.k8s.io/docs/reference/metrics/ を参照してください。 いいえ キュー

メトリクスのスケーリング

これらのメトリクスを使用して、SageMaker HyperPod クラスターの自動スケーリングの動作とパフォーマンスをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
KEDA オペレーターメトリクス https://keda.sh/docs/2.17/integrations/prometheus/#operator を参照してください。 いいえ Kubernetes イベント駆動型オートスケーラー (KEDA)
KEDA Webhook メトリクス https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks を参照してください。 いいえ Kubernetes イベント駆動型オートスケーラー (KEDA)
KEDA メトリクスサーバーメトリクス https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server を参照してください。 いいえ Kubernetes イベント駆動型オートスケーラー (KEDA)

クラスターメトリクス

これらのメトリクスを使用して、クラスター全体のヘルスとリソース割り当てをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
クラスターヘルス Kubernetes API サーバーメトリクス。https://kubernetes.io/docs/reference/instrumentation/metrics/ を参照してください。 はい Kubernetes
Kubestate https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources を参照してください。 制限あり Kubernetes
KubeState の詳細 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources を参照してください。 いいえ Kubernetes

インスタンスメトリクス

これらのメトリクスを使用して、個々のインスタンスのパフォーマンスと状態をモニタリングします。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
ノードメトリクス https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default を参照してください。 はい Kubernetes
コンテナメトリクス Cadvisor によって公開されるコンテナメトリクス。https://github.com/google/cadvisor を参照してください。 はい Kubernetes

高速コンピューティングメトリクス

これらのメトリクスを使用して、クラスター内の個々の高速コンピューティングデバイスのパフォーマンス、ヘルス、使用率をモニタリングします。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
NVIDIA GPU DCGM メトリクス。https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv を参照してください。 制限あり

NVIDIA データセンター GPU マネージャー (DCGM)

NVIDIA GPU (アドバンスド)

次の CSV ファイルでコメントアウトされる DCGM メトリクス。

https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv

いいえ

NVIDIA データセンター GPU マネージャー (DCGM)

AWS Trainium Neuron メトリクス。https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters を参照してください。 いいえ AWS Neuron モニター

ネットワークメトリクス

これらのメトリクスを使用して、クラスター内の Elastic Fabric Adapter (EFA) のパフォーマンスと状態をモニタリングします。

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
EFA https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md を参照してください。 いいえ Elastic Fabric Adapter

ファイルシステムのメトリクス

メトリクス名またはタイプ 説明 デフォルトでは有効になっていますか? メトリクスソース
ファイルシステム Amazon CloudWatch の Amazon FSx for Lustre メトリクス:

Amazon CloudWatch によるモニタリング

はい Amazon FSx for Lustre