

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker HyperPod クラスターのメトリクス
<a name="hyperpod-observability-cluster-metrics"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) は、9 つの異なるカテゴリにわたるさまざまなメトリクスを Amazon Managed Service for Prometheus ワークスペースに公開します。すべてのメトリクスがデフォルトで有効になっているわけではなく、Amazon Managed Grafana ワークスペースに表示されるわけでもありません。オブザーバビリティアドオンのインストール時にデフォルトで有効になっているメトリクス、より詳細なクラスター情報に対して有効にできる追加のメトリクスがあるカテゴリ、Amazon Managed Grafana ワークスペースに表示される場所は、次の表のとおりです。


| メトリクスカテゴリ | デフォルトで有効 | その他の高度なメトリクスを利用できるか | どの Grafana ダッシュボードで利用できるか | 
| --- | --- | --- | --- | 
| トレーニングメトリクス | はい | はい | トレーニング | 
| 推論メトリクス | はい | いいえ | 推測 | 
| タスクガバナンスメトリクス | いいえ | はい | なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。 | 
| スケーリングメトリクス | いいえ | はい | なし。Amazon Managed Service for Prometheus ワークスペースをクエリして、独自のダッシュボードを構築します。 | 
| クラスターメトリクス | はい | はい | クラスター | 
| インスタンスメトリクス | はい | はい | クラスター | 
| 高速コンピューティングメトリクス | はい | はい | タスク、クラスター | 
| ネットワークメトリクス | いいえ | はい | クラスター | 
| ファイルシステム | はい | いいえ | ファイルシステム | 

次の表では、SageMaker HyperPod クラスターのモニタリングに使用できるメトリクスをカテゴリ別にまとめています。

## 制限付きインスタンスグループのメトリクスの可用性
<a name="hyperpod-observability-rig-metrics-availability"></a>

クラスターに制限付きインスタンスグループが含まれている場合、以下の例外と考慮事項を除いて、ほとんどのメトリクスカテゴリは制限付きノードで使用できます。任意のメトリクスにアラートを設定することもできます。


| メトリクスカテゴリ | RIG ノードで使用できますか? | 注意事項 | 
| --- | --- | --- | 
| トレーニングメトリクス | はい | Kubeflow および Kubernetes ポッドメトリクスが収集されます。高度なトレーニング KPI メトリクス (トレーニングメトリクスエージェントから) は、RIG ノードからは使用できません。 | 
| 推論メトリクス | いいえ | 推論ワークロードは、制限付きインスタンスグループではサポートされていません。 | 
| タスクガバナンスメトリクス | いいえ | キューメトリクスは、標準ノードからのみ収集されます。 | 
| スケーリングメトリクス | いいえ | KEDA メトリクスは、標準ノードからのみ収集されます。 | 
| クラスターメトリクス | はい | Kube ステートメトリクスと API サーバーメトリクスを使用できます。Kube ステートメトリクスは標準ノードで優先的にスケジュールされますが、RIG 専用クラスターの制限付きノードで実行できます。 | 
| インスタンスメトリクス | はい | Node Exporter および cAdvisor メトリクスは、制限付きノードを含むすべてのノードで収集されます。 | 
| 高速コンピューティングメトリクス | はい | DCGM Exporter は GPU 対応の制限付きノードで実行されます。Neuron Monitor は、アドバンストモードが有効になっている場合、Neuron が有効な制限付きノードで実行されます。 | 
| ネットワークメトリクス | はい | アドバンストモードが有効になっている場合、EFA Exporter は EFA 対応の制限付きノードで実行されます。 | 
| ファイルシステムのメトリクス | はい | FSx for Lustre クラスター使用率メトリクスは、制限付きインスタンスグループでサポートされています。 | 

**注記**  
Fluent Bit を使用したコンテナログコレクションは、制限されたノードにはデプロイされません。制限されたノードからのクラスターログは、オブザーバビリティアドオンとは無関係に SageMaker HyperPod プラットフォームを介して使用できます。これらのログは、クラスターログダッシュボードで表示できます。

## トレーニングメトリクス
<a name="hyperpod-observability-training-metrics"></a>

これらのメトリクスを使用して、SageMaker HyperPod クラスターで実行されたトレーニングタスクのパフォーマンスを追跡します。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| Kubeflow メトリクス | [https://github.com/kubeflow/trainer](https://github.com/kubeflow/trainer) | はい | Kubeflow | 
| Kubernetes ポッドメトリクス | [https://github.com/kubernetes/kube-state-metrics](https://github.com/kubernetes/kube-state-metrics) | はい | Kubernetes | 
| training\_uptime\_percentage | 合計ウィンドウサイズからのトレーニングタイムアウトの割合 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_manual\_recovery\_count | ジョブで実行された手動再起動の合計数 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_manual\_downtime\_ms | 手動介入によりジョブが停止したミリ秒単位の合計時間 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_auto\_recovery\_count | 自動復旧の合計数 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_auto\_recovery\_downtime | 障害復旧中のミリ秒単位の合計インフラストラクチャオーバーヘッド時間 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_fault\_count | トレーニング中に発生した障害の合計数 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_fault\_type\_count | タイプ別の障害分布 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_fault\_recovery\_time\_ms | 障害のタイプごとのミリ秒単位の復旧時間 | いいえ | SageMaker HyperPod トレーニングオペレーター | 
| training\_time\_ms | 実際のトレーニングに費やされたミリ秒単位の合計時間 | いいえ | SageMaker HyperPod トレーニングオペレーター | 

## 推論メトリクス
<a name="hyperpod-observability-inference-metrics"></a>

これらのメトリクスを使用して、SageMaker HyperPod クラスターの推論タスクのパフォーマンスを追跡します。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| model\_invocations\_total | モデルへの呼び出しリクエストの合計数 | はい | SageMaker HyperPod 推論演算子 | 
| model\_errors\_total | モデル呼び出し中のエラーの合計数 | はい | SageMaker HyperPod 推論演算子 | 
| model\_concurrent\_requests | アクティブな同時モデルリクエスト数 | はい | SageMaker HyperPod 推論演算子 | 
| model\_latency\_milliseconds | ミリ秒単位のモデル呼び出し遅延 | はい | SageMaker HyperPod 推論演算子 | 
| model\_ttfb\_milliseconds | モデルの最初のバイトまでのレイテンシーのミリ秒単位の時間 | はい | SageMaker HyperPod 推論演算子 | 
| TGI | これらのメトリクスは、TGI のパフォーマンスのモニタリング、デプロイの自動スケーリング、ボトルネックの特定に役立ちます。メトリクスの詳細なリストについては、[https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) を参照してください。 | はい | モデルコンテナ | 
| LMI | これらのメトリクスは、LMI のパフォーマンスをモニタリングし、ボトルネックを特定するのに役立ちます。メトリクスの詳細なリストについては、[https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) を参照してください。 | はい | モデルコンテナ | 

## タスクガバナンスメトリクス
<a name="hyperpod-observability-task-governance-metrics"></a>

これらのメトリクスを使用して、SageMaker HyperPod クラスターのタスクガバナンスとリソース割り当てをモニタリングします。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| Kueue | [https://kueue.sigs.k8s.io/docs/reference/metrics/](https://kueue.sigs.k8s.io/docs/reference/metrics/) を参照してください。 | いいえ | Kueue | 

## スケーリングメトリクス
<a name="hyperpod-observability-scaling-metrics"></a>

これらのメトリクスを使用して、SageMaker HyperPod クラスターの自動スケーリングの動作とパフォーマンスをモニタリングします。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| KEDA オペレーターメトリクス | [https://keda.sh/docs/2.17/integrations/prometheus/\#operator](https://keda.sh/docs/2.17/integrations/prometheus/#operator) を参照してください。 | いいえ | Kubernetes イベント駆動型オートスケーラー (KEDA) | 
| KEDA Webhook メトリクス | [https://keda.sh/docs/2.17/integrations/prometheus/\#admission-webhooks](https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks) を参照してください。 | いいえ | Kubernetes イベント駆動型オートスケーラー (KEDA) | 
| KEDA メトリクスサーバーのメトリクス | [https://keda.sh/docs/2.17/integrations/prometheus/\#metrics-server](https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server) を参照してください。 | いいえ | Kubernetes イベント駆動型オートスケーラー (KEDA) | 

## クラスターメトリクス
<a name="hyperpod-observability-cluster-health-metrics"></a>

これらのメトリクスを使用して、クラスター全体のヘルスとリソース割り当てをモニタリングします。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| クラスターヘルス | Kubernetes API サーバーメトリクス。[https://kubernetes.io/docs/reference/instrumentation/metrics/](https://kubernetes.io/docs/reference/instrumentation/metrics/) を参照してください。 | はい | Kubernetes | 
| Kubestate | [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\#default-resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources) を参照してください。 | 制限あり | Kubernetes | 
| KubeState Advanced | [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\#optional-resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources) を参照してください。 | いいえ | Kubernetes | 

## インスタンスメトリクス
<a name="hyperpod-observability-instance-metrics"></a>

これらのメトリクスを使用して、個々のインスタンスのパフォーマンスとヘルスをモニタリングします。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| ノードのメトリクス | [https://github.com/prometheus/node\_exporter?tab=readme-ov-file\#enabled-by-default](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default) を参照してください。 | はい | Kubernetes | 
| コンテナのメトリクス | Cadvisor が公開するコンテナメトリクス。[https://github.com/google/cadvisor](https://github.com/google/cadvisor) を参照してください。 | はい | Kubernetes | 

## 高速コンピューティングメトリクス
<a name="hyperpod-observability-accelerated-compute-metrics"></a>

これらのメトリクスを使用して、クラスター内の個々の高速コンピューティングデバイスのパフォーマンス、ヘルス、使用率をモニタリングします。

**注記**  
クラスターで MIG (マルチインスタンス GPU) を使用した GPU パーティショニングが有効になっている場合、DCGM メトリクスは個々の MIG インスタンスをモニタリングするためのパーティションレベルの粒度を自動的に提供します。各 MIG パーティションは、温度、電力、メモリ使用率、コンピューティングアクティビティに関する独自のメトリクスを持つ個別の GPU デバイスとして公開されます。これにより、各 GPU パーティションのリソースの使用状況とヘルスを個別に追跡できるため、少数の GPU リソースで実行されているワークロードを正確にモニタリングできます。GPU パーティショニングの設定の詳細については、「」を参照してください[Amazon SageMaker HyperPod での GPU パーティションの使用 HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md)。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| NVIDIA GPU | DCGM メトリクス。[https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) を参照してください。 | 制限あり | NVIDIA Data Center GPU Manager (DCGM) | 
| NVIDIA GPU (advanced) | 次の CSV ファイルでコメントアウトされる DCGM メトリクス。[https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | いいえ | NVIDIA Data Center GPU Manager (DCGM) | 
| AWS Trainium | Neuron メトリクス。[https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html\#neuron-monitor-nc-counters](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters) を参照してください。 | いいえ | AWS Neuron モニター | 

## ネットワークメトリクス
<a name="hyperpod-observability-network-metrics"></a>

これらのメトリクスを使用して、クラスター内の Elastic Fabric Adapter (EFA) のパフォーマンスとヘルスをモニタリングします。


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| EFA | [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation\_and\_observability/3.efa-node-exporter/README.md](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md) を参照してください。 | いいえ | Elastic Fabric Adapter | 

## ファイルシステムのメトリクス
<a name="hyperpod-observability-file-system-metrics"></a>


| メトリクス名またはタイプ | 説明 | デフォルトで有効 | メトリクスソース | 
| --- | --- | --- | --- | 
| ファイルシステム | Amazon FSx for Lustre CloudWatch メトリクスを使用する方法:[Amazon CloudWatch を使用したモニタリング](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) | はい | Amazon FSx for Lustre | 