翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod クラスターのメトリクス
Amazon SageMaker HyperPod (SageMaker HyperPod) は、9 つの異なるカテゴリにわたるさまざまなメトリクスを Amazon Managed Service for Prometheus ワークスペースに公開します。すべてのメトリクスがデフォルトで有効になっているわけではなく、Amazon Managed Grafana ワークスペースに表示されるわけでもありません。オブザーバビリティアドオンのインストール時にデフォルトで有効になっているメトリクス、より詳細なクラスター情報に対して有効にできる追加のメトリクスがあるカテゴリ、Amazon Managed Grafana ワークスペースに表示される場所は、次の表のとおりです。
| メトリクスカテゴリ | デフォルトで有効 | その他の高度なメトリクスを利用できるか | どの Grafana ダッシュボードで利用できるか |
|---|---|---|---|
| トレーニングメトリクス | はい | はい | トレーニング |
| 推論メトリクス | はい | なし | 推論 |
| タスクガバナンスメトリクス | 不可 | はい | なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。 |
| スケーリングメトリクス | 不可 | はい | なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。 |
| クラスターメトリクス | はい | はい | クラスター |
| インスタンスメトリクス | はい | はい | クラスター |
| 高速コンピューティングメトリクス | はい | はい | タスク、クラスター |
| ネットワークメトリクス | 不可 | はい | クラスター |
| ファイルシステム | はい | なし | ファイルシステム |
次の表では、SageMaker HyperPod クラスターのモニタリングに使用できるメトリクスをカテゴリ別にまとめています。
トレーニングメトリクス
これらのメトリクスを使用して、SageMaker HyperPod クラスターで実行されたトレーニングタスクのパフォーマンスを追跡します。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| Kubeflow メトリクス | https://github.com/kubeflow/trainer |
はい | Kubeflow |
| Kubernetes ポッドメトリクス | https://github.com/kubernetes/kube-state-metrics |
はい | Kubernetes |
training_uptime_percentage |
合計ウィンドウサイズからのトレーニングタイムアウトの割合 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_manual_recovery_count |
ジョブで実行された手動再起動の合計数 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_manual_downtime_ms |
手動介入によりジョブが停止したミリ秒単位の合計時間 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_auto_recovery_count |
自動復旧の合計数 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_auto_recovery_downtime |
障害復旧中のミリ秒単位の合計インフラストラクチャオーバーヘッド時間 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_fault_count |
トレーニング中に発生した障害の合計数 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_fault_type_count |
タイプ別の障害分布 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_fault_recovery_time_ms |
障害のタイプごとのミリ秒単位の復旧時間 | 不可 | SageMaker HyperPod トレーニングオペレーター |
training_time_ms |
実際のトレーニングに費やされたミリ秒単位の合計時間 | 不可 | SageMaker HyperPod トレーニングオペレーター |
推論メトリクス
これらのメトリクスを使用して、SageMaker HyperPod クラスターの推論タスクのパフォーマンスを追跡します。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
model_invocations_total |
モデルへの呼び出しリクエストの合計数 | はい | SageMaker HyperPod 推論演算子 |
model_errors_total |
モデル呼び出し中のエラーの合計数 | はい | SageMaker HyperPod 推論演算子 |
model_concurrent_requests |
アクティブな同時モデルリクエスト数 | はい | SageMaker HyperPod 推論演算子 |
model_latency_milliseconds |
ミリ秒単位のモデル呼び出し遅延 | はい | SageMaker HyperPod 推論演算子 |
model_ttfb_milliseconds |
モデルの最初のバイトまでのレイテンシーのミリ秒単位の時間 | はい | SageMaker HyperPod 推論演算子 |
| TGI | これらのメトリクスは、TGI のパフォーマンスのモニタリング、デプロイの自動スケーリング、ボトルネックの特定に役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
はい | モデルコンテナ |
| LMI | これらのメトリクスは、LMI のパフォーマンスをモニタリングし、ボトルネックを特定するのに役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
はい | モデルコンテナ |
タスクガバナンスメトリクス
これらのメトリクスを使用して、SageMaker HyperPod クラスターのタスクガバナンスとリソース割り当てをモニタリングします。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| Kueue | https://kueue.sigs.k8s.io/docs/reference/metrics/ |
不可 | Kueue |
スケーリングメトリクス
これらのメトリクスを使用して、SageMaker HyperPod クラスターの自動スケーリングの動作とパフォーマンスをモニタリングします。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| KEDA オペレーターメトリクス | https://keda.sh/docs/2.17/integrations/prometheus/#operator |
不可 | Kubernetes イベント駆動型オートスケーラー (KEDA) |
| KEDA Webhook メトリクス | https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks |
不可 | Kubernetes イベント駆動型オートスケーラー (KEDA) |
| KEDA メトリクスサーバーのメトリクス | https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server |
不可 | Kubernetes イベント駆動型オートスケーラー (KEDA) |
クラスターメトリクス
これらのメトリクスを使用して、クラスター全体のヘルスとリソース割り当てをモニタリングします。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| クラスターヘルス | Kubernetes API サーバーメトリクス。https://kubernetes.io/docs/reference/instrumentation/metrics/ |
はい | Kubernetes |
| Kubestate | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
制限あり | Kubernetes |
| KubeState Advanced | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
不可 | Kubernetes |
インスタンスメトリクス
これらのメトリクスを使用して、個々のインスタンスのパフォーマンスとヘルスをモニタリングします。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| ノードのメトリクス | https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default |
はい | Kubernetes |
| コンテナのメトリクス | Cadvisor が公開するコンテナメトリクス。https://github.com/google/cadvisor |
はい | Kubernetes |
高速コンピューティングメトリクス
これらのメトリクスを使用して、クラスター内の個々の高速コンピューティングデバイスのパフォーマンス、ヘルス、使用率をモニタリングします。
注記
クラスターで MIG (マルチインスタンス GPU) による GPU パーティショニングが有効になっている場合、DCGM メトリクスは個々の MIG インスタンスをモニタリングするためのパーティションレベルの粒度を自動的に提供します。各 MIG パーティションは、温度、電力、メモリ使用率、コンピューティングアクティビティに関する独自のメトリクスを持つ個別の GPU デバイスとして公開されます。これにより、各 GPU パーティションのリソースの使用状況とヘルスを個別に追跡できるため、少数の GPU リソースで実行されているワークロードを正確にモニタリングできます。GPU パーティショニングの設定の詳細については、「」を参照してくださいAmazon SageMaker HyperPod での GPU パーティションの使用 HyperPod。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| NVIDIA GPU | DCGM メトリクス。https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
制限あり |
NVIDIA Data Center GPU Manager (DCGM) |
|
NVIDIA GPU (advanced) |
次の CSV ファイルでコメントアウトされる DCGM メトリクス。 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
不可 |
NVIDIA Data Center GPU Manager (DCGM) |
| AWSTrainium | Neuron メトリクス。https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters |
不可 | AWSNeuron モニター |
ネットワークメトリクス
これらのメトリクスを使用して、クラスター内の Elastic Fabric Adapter (EFA) のパフォーマンスとヘルスをモニタリングします。
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| EFA | https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
不可 | Elastic Fabric Adapter |
ファイルシステムのメトリクス
| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース |
|---|---|---|---|
| ファイルシステム | Amazon FSx for Lustre CloudWatch メトリクスを使用する方法: | はい | Amazon FSx for Lustre |