SageMaker HyperPod クラスターのメトリクス - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod クラスターのメトリクス

Amazon SageMaker HyperPod (SageMaker HyperPod) は、9 つの異なるカテゴリにわたるさまざまなメトリクスを Amazon Managed Service for Prometheus ワークスペースに公開します。すべてのメトリクスがデフォルトで有効になっているわけではなく、Amazon Managed Grafana ワークスペースに表示されるわけでもありません。オブザーバビリティアドオンのインストール時にデフォルトで有効になっているメトリクス、より詳細なクラスター情報に対して有効にできる追加のメトリクスがあるカテゴリ、Amazon Managed Grafana ワークスペースに表示される場所は、次の表のとおりです。

メトリクスカテゴリ デフォルトで有効 その他の高度なメトリクスを利用できるか どの Grafana ダッシュボードで利用できるか
トレーニングメトリクス はい はい トレーニング
推論メトリクス はい なし 推論
タスクガバナンスメトリクス 不可 はい なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。
スケーリングメトリクス 不可 はい なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。
クラスターメトリクス はい はい クラスター
インスタンスメトリクス はい はい クラスター
高速コンピューティングメトリクス はい はい タスク、クラスター
ネットワークメトリクス 不可 はい クラスター
ファイルシステム はい なし ファイルシステム

次の表では、SageMaker HyperPod クラスターのモニタリングに使用できるメトリクスをカテゴリ別にまとめています。

トレーニングメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターで実行されたトレーニングタスクのパフォーマンスを追跡します。

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
Kubeflow メトリクス https://github.com/kubeflow/trainer はい Kubeflow
Kubernetes ポッドメトリクス https://github.com/kubernetes/kube-state-metrics はい Kubernetes
training_uptime_percentage 合計ウィンドウサイズからのトレーニングタイムアウトの割合 不可 SageMaker HyperPod トレーニングオペレーター
training_manual_recovery_count ジョブで実行された手動再起動の合計数 不可 SageMaker HyperPod トレーニングオペレーター
training_manual_downtime_ms 手動介入によりジョブが停止したミリ秒単位の合計時間 不可 SageMaker HyperPod トレーニングオペレーター
training_auto_recovery_count 自動復旧の合計数 不可 SageMaker HyperPod トレーニングオペレーター
training_auto_recovery_downtime 障害復旧中のミリ秒単位の合計インフラストラクチャオーバーヘッド時間 不可 SageMaker HyperPod トレーニングオペレーター
training_fault_count トレーニング中に発生した障害の合計数 不可 SageMaker HyperPod トレーニングオペレーター
training_fault_type_count タイプ別の障害分布 不可 SageMaker HyperPod トレーニングオペレーター
training_fault_recovery_time_ms 障害のタイプごとのミリ秒単位の復旧時間 不可 SageMaker HyperPod トレーニングオペレーター
training_time_ms 実際のトレーニングに費やされたミリ秒単位の合計時間 不可 SageMaker HyperPod トレーニングオペレーター

推論メトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターの推論タスクのパフォーマンスを追跡します。

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
model_invocations_total モデルへの呼び出しリクエストの合計数 はい SageMaker HyperPod 推論演算子
model_errors_total モデル呼び出し中のエラーの合計数 はい SageMaker HyperPod 推論演算子
model_concurrent_requests アクティブな同時モデルリクエスト数 はい SageMaker HyperPod 推論演算子
model_latency_milliseconds ミリ秒単位のモデル呼び出し遅延 はい SageMaker HyperPod 推論演算子
model_ttfb_milliseconds モデルの最初のバイトまでのレイテンシーのミリ秒単位の時間 はい SageMaker HyperPod 推論演算子
TGI これらのメトリクスは、TGI のパフォーマンスのモニタリング、デプロイの自動スケーリング、ボトルネックの特定に役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md を参照してください。 はい モデルコンテナ
LMI これらのメトリクスは、LMI のパフォーマンスをモニタリングし、ボトルネックを特定するのに役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md を参照してください。 はい モデルコンテナ

タスクガバナンスメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターのタスクガバナンスとリソース割り当てをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
Kueue https://kueue.sigs.k8s.io/docs/reference/metrics/ を参照してください。 不可 Kueue

スケーリングメトリクス

これらのメトリクスを使用して、SageMaker HyperPod クラスターの自動スケーリングの動作とパフォーマンスをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
KEDA オペレーターメトリクス https://keda.sh/docs/2.17/integrations/prometheus/#operator を参照してください。 不可 Kubernetes イベント駆動型オートスケーラー (KEDA)
KEDA Webhook メトリクス https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks を参照してください。 不可 Kubernetes イベント駆動型オートスケーラー (KEDA)
KEDA メトリクスサーバーのメトリクス https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server を参照してください。 不可 Kubernetes イベント駆動型オートスケーラー (KEDA)

クラスターメトリクス

これらのメトリクスを使用して、クラスター全体のヘルスとリソース割り当てをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
クラスターヘルス Kubernetes API サーバーメトリクス。https://kubernetes.io/docs/reference/instrumentation/metrics/ を参照してください。 はい Kubernetes
Kubestate https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources を参照してください。 制限あり Kubernetes
KubeState Advanced https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources を参照してください。 不可 Kubernetes

インスタンスメトリクス

これらのメトリクスを使用して、個々のインスタンスのパフォーマンスとヘルスをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
ノードのメトリクス https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default を参照してください。 はい Kubernetes
コンテナのメトリクス Cadvisor が公開するコンテナメトリクス。https://github.com/google/cadvisor を参照してください。 はい Kubernetes

高速コンピューティングメトリクス

これらのメトリクスを使用して、クラスター内の個々の高速コンピューティングデバイスのパフォーマンス、ヘルス、使用率をモニタリングします。

注記

クラスターで MIG (マルチインスタンス GPU) による GPU パーティショニングが有効になっている場合、DCGM メトリクスは個々の MIG インスタンスをモニタリングするためのパーティションレベルの粒度を自動的に提供します。各 MIG パーティションは、温度、電力、メモリ使用率、コンピューティングアクティビティに関する独自のメトリクスを持つ個別の GPU デバイスとして公開されます。これにより、各 GPU パーティションのリソースの使用状況とヘルスを個別に追跡できるため、少数の GPU リソースで実行されているワークロードを正確にモニタリングできます。GPU パーティショニングの設定の詳細については、「」を参照してくださいAmazon SageMaker HyperPod での GPU パーティションの使用 HyperPod

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
NVIDIA GPU DCGM メトリクス。https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv を参照してください。 制限あり

NVIDIA Data Center GPU Manager (DCGM)

NVIDIA GPU (advanced)

次の CSV ファイルでコメントアウトされる DCGM メトリクス。

https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv

不可

NVIDIA Data Center GPU Manager (DCGM)

AWSTrainium Neuron メトリクス。https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters を参照してください。 不可 AWSNeuron モニター

ネットワークメトリクス

これらのメトリクスを使用して、クラスター内の Elastic Fabric Adapter (EFA) のパフォーマンスとヘルスをモニタリングします。

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
EFA https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md を参照してください。 不可 Elastic Fabric Adapter

ファイルシステムのメトリクス

メトリクス名またはタイプ 説明 デフォルトで有効 メトリクスソース
ファイルシステム Amazon FSx for Lustre CloudWatch メトリクスを使用する方法:

Amazon CloudWatch を使用したモニタリング

はい Amazon FSx for Lustre