翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker HyperPod クラスターリソースのモニタリング
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

SageMaker HyperPod クラスターリソースおよびソフトウェアコンポーネントで包括的なオブザーバビリティを実現するには、クラスターを [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) および [Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) と統合します。Amazon Managed Service for Prometheus との統合により、HyperPod クラスターリソースに関連するメトリクスのエクスポートが可能になり、パフォーマンス、使用率、ヘルスに関するインサイトが得られます。Amazon Managed Grafana との統合により、クラスターの動作をモニタリングおよび分析するための直感的なインターフェイスを提供するさまざまな Grafana ダッシュボードを通じて、これらのメトリクスを可視化できます。これらのサービスを活用することで、HyperPod クラスターを一元的に統一して表示できるため、分散トレーニングワークロードのプロアクティブなモニタリング、トラブルシューティング、最適化が容易になります。

**ヒント**  
実用的な例と解決策については、[SageMaker HyperPod ワークショップ](https://catalog.workshops.aws/sagemaker-hyperpod)も参照してください。

![\[Amazon Managed Service for Prometheus と Amazon Managed Grafana を使用した SageMaker HyperPod の設定の概要。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


図: このアーキテクチャ図は、Amazon Managed Service for Prometheus と Amazon Managed Grafana で SageMaker HyperPod を設定する方法の概要を示しています。

次のトピックに進み、SageMaker HyperPod クラスターオブザーバビリティを設定します。

**Topics**
+ [SageMaker HyperPod クラスターのオブザーバビリティの前提条件](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [HyperPod クラスターにメトリクスエクスポーターパッケージをインストールする](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [HyperPod クラスターのヘッドノードで Prometheus セットアップを検証する](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Amazon Managed Grafana ワークスペースを設定する](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [エクスポートされたメトリクスリファレンス](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Amazon SageMaker HyperPod Slurm のメトリクス](smcluster-slurm-metrics.md)