翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod クラスターメトリクス
Amazon SageMaker HyperPod (SageMaker HyperPod) は、9 つの異なるカテゴリにわたるさまざまなメトリクスを Amazon Managed Service for Prometheus ワークスペースに発行します。すべてのメトリクスがデフォルトで有効になっているわけではなく、Amazon Managed Grafana ワークスペースに表示されるわけでもありません。次の表は、オブザーバビリティアドオンのインストール時にデフォルトで有効になっているメトリクス、より詳細なクラスター情報に対して有効にできる追加のメトリクスがあるカテゴリ、Amazon Managed Grafana ワークスペースに表示される場所を示しています。
メトリクスカテゴリ | デフォルトでは有効になっていますか? | その他の高度なメトリクスを利用できますか? | どの Grafana ダッシュボードで利用できますか? |
---|---|---|---|
トレーニングメトリクス | はい | はい | トレーニング |
推論メトリクス | はい | いいえ | 推論 |
タスクガバナンスメトリクス | いいえ | はい | なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。 |
メトリクスのスケーリング | いいえ | はい | なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。 |
クラスターメトリクス | はい | はい | クラスター |
インスタンスメトリクス | はい | はい | クラスター |
高速コンピューティングメトリクス | はい | はい | タスク、クラスター |
ネットワークメトリクス | いいえ | はい | クラスター |
ファイルシステム | はい | いいえ | ファイルシステム |
次の表は、SageMaker HyperPod クラスターのモニタリングに使用できるメトリクスをカテゴリ別にまとめたものです。
トレーニングメトリクス
これらのメトリクスを使用して、SageMaker HyperPod クラスターで実行されたトレーニングタスクのパフォーマンスを追跡します。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
Kubeflow メトリクス | https://github.com/kubeflow/trainer |
はい | Kubeflow |
Kubernetes ポッドメトリクス | https://github.com/kubernetes/kube-state-metrics |
はい | Kubernetes |
training_uptime_percentage |
合計ウィンドウサイズからのトレーニングタイムアウトの割合 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_manual_recovery_count |
ジョブで実行された手動再起動の合計数 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_manual_downtime_ms |
手動介入によりジョブが停止したミリ秒単位の合計時間 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_auto_recovery_count |
自動復旧の合計数 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_auto_recovery_downtime |
障害復旧中の合計インフラストラクチャオーバーヘッド時間をミリ秒単位で表示 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_fault_count |
トレーニング中に発生した障害の合計数 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_fault_type_count |
タイプ別の障害の分布 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_fault_recovery_time_ms |
障害のタイプごとのミリ秒単位の復旧時間 | いいえ | SageMaker HyperPod トレーニングオペレーター |
training_time_ms |
実際のトレーニングに費やされたミリ秒単位の合計時間 | いいえ | SageMaker HyperPod トレーニングオペレーター |
推論メトリクス
これらのメトリクスを使用して、SageMaker HyperPod クラスターの推論タスクのパフォーマンスを追跡します。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
model_invocations_total |
モデルへの呼び出しリクエストの合計数 | はい | SageMaker HyperPod 推論演算子 |
model_errors_total |
モデル呼び出し中のエラーの合計数 | はい | SageMaker HyperPod 推論演算子 |
model_concurrent_requests |
アクティブな同時モデルリクエスト | はい | SageMaker HyperPod 推論演算子 |
model_latency_milliseconds |
ミリ秒単位のモデル呼び出しレイテンシー | はい | SageMaker HyperPod 推論演算子 |
model_ttfb_milliseconds |
ミリ秒単位の最初のバイトレイテンシーまでのモデル時間 | はい | SageMaker HyperPod 推論演算子 |
TGI | これらのメトリクスは、TGI のパフォーマンスのモニタリング、デプロイの自動スケーリング、ボトルネックの特定に役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
はい | モデルコンテナ |
LMI | これらのメトリクスは、LMI のパフォーマンスをモニタリングし、ボトルネックを特定するのに役立ちます。メトリクスの詳細なリストについては、https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
はい | モデルコンテナ |
タスクガバナンスメトリクス
これらのメトリクスを使用して、SageMaker HyperPod クラスターのタスクガバナンスとリソース割り当てをモニタリングします。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
キュー | https://kueue.sigs.k8s.io/docs/reference/metrics/ |
いいえ | キュー |
メトリクスのスケーリング
これらのメトリクスを使用して、SageMaker HyperPod クラスターの自動スケーリングの動作とパフォーマンスをモニタリングします。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
KEDA オペレーターメトリクス | https://keda.sh/docs/2.17/integrations/prometheus/#operator |
いいえ | Kubernetes イベント駆動型オートスケーラー (KEDA) |
KEDA Webhook メトリクス | https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks |
いいえ | Kubernetes イベント駆動型オートスケーラー (KEDA) |
KEDA メトリクスサーバーメトリクス | https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server |
いいえ | Kubernetes イベント駆動型オートスケーラー (KEDA) |
クラスターメトリクス
これらのメトリクスを使用して、クラスター全体のヘルスとリソース割り当てをモニタリングします。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
クラスターヘルス | Kubernetes API サーバーメトリクス。https://kubernetes.io/docs/reference/instrumentation/metrics/ |
はい | Kubernetes |
Kubestate | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
制限あり | Kubernetes |
KubeState の詳細 | https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
いいえ | Kubernetes |
インスタンスメトリクス
これらのメトリクスを使用して、個々のインスタンスのパフォーマンスと状態をモニタリングします。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
ノードメトリクス | https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default |
はい | Kubernetes |
コンテナメトリクス | Cadvisor によって公開されるコンテナメトリクス。https://github.com/google/cadvisor |
はい | Kubernetes |
高速コンピューティングメトリクス
これらのメトリクスを使用して、クラスター内の個々の高速コンピューティングデバイスのパフォーマンス、ヘルス、使用率をモニタリングします。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
NVIDIA GPU | DCGM メトリクス。https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
制限あり |
NVIDIA データセンター GPU マネージャー (DCGM) |
NVIDIA GPU (アドバンスド) |
次の CSV ファイルでコメントアウトされる DCGM メトリクス。 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
いいえ |
NVIDIA データセンター GPU マネージャー (DCGM) |
AWS Trainium | Neuron メトリクス。https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters |
いいえ | AWS Neuron モニター |
ネットワークメトリクス
これらのメトリクスを使用して、クラスター内の Elastic Fabric Adapter (EFA) のパフォーマンスと状態をモニタリングします。
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
EFA | https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
いいえ | Elastic Fabric Adapter |
ファイルシステムのメトリクス
メトリクス名またはタイプ | 説明 | デフォルトでは有効になっていますか? | メトリクスソース |
---|---|---|---|
ファイルシステム | Amazon CloudWatch の Amazon FSx for Lustre メトリクス: | はい | Amazon FSx for Lustre |