

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# SageMaker HyperPod 叢集資源監控
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

若要在 SageMaker HyperPod 叢集資源和軟體元件中實現全面的可觀測性，請將叢集與 [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) 和 [Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) 整合。與 Amazon Managed Service for Prometheus 的整合可讓您匯出與 HyperPod 叢集資源相關的指標，進而洞悉其效能、使用率和運作狀態。與 Amazon Managed Grafana 的整合可透過各種 Grafana 儀表板啟用這些指標的視覺化，這些儀表板提供直覺式界面，用於監控和分析叢集的行為。透過利用這些服務，您可以集中且統一地檢視 HyperPod 叢集，促進分散式訓練工作負載的主動監控、故障診斷和最佳化。

**提示**  
若要尋找實際範例和解決方案，另請參閱 [SageMaker HyperPod 工作坊](https://catalog.workshops.aws/sagemaker-hyperpod)。

![使用 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 設定 SageMaker HyperPod 的概觀。](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


圖：此架構圖顯示使用 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 設定 SageMaker HyperPod 的概觀。

繼續下列主題，以設定 SageMaker HyperPod 叢集可觀測性。

**Topics**
+ [SageMaker HyperPod 叢集可觀測性的先決條件](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [在您的 HyperPod 叢集上安裝指標匯出工具套件](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [在 HyperPod 叢集主節點上驗證 Prometheus 設定](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [設定 Amazon Managed Grafana 工作區](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [匯出的指標參考](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Amazon SageMaker HyperPod Slurm 指標](smcluster-slurm-metrics.md)