Amazon EKS 協調的 Amazon SageMaker HyperPod 叢集的可觀測性

若要在 Amazon SageMaker HyperPod (SageMaker HyperPod) 叢集資源和軟體元件中實現全面的可觀測性，請將叢集與 Amazon CloudWatch Container Insights、Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 整合。這些工具提供叢集運作狀態、效能指標和資源使用率的可見性。

與 Amazon Managed Service for Prometheus 的整合可讓您匯出與 HyperPod 叢集資源相關的指標，進而洞悉其效能、使用率和運作狀態。與 Amazon Managed Grafana 的整合可透過各種 Grafana 儀表板啟用這些指標的視覺化，這些儀表板提供直覺式界面，用於監控和分析叢集的行為。透過利用這些服務，您可以集中且統一地檢視 HyperPod 叢集，促進分散式訓練工作負載的主動監控、故障診斷和最佳化。

注意

雖然 CloudWatch、Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 專注於操作指標 (例如系統運作狀態、訓練任務效能)，但 SageMaker HyperPod 用量報告補充任務治理，以提供財務和資源責任洞見。這些報告會追蹤：

跨命名空間/團隊的運算使用率 (GPU/CPU/神經元核心時數）
配置資源與借用資源的成本歸因
稽核和最佳化的歷史趨勢 (最多 180 天)

如需設定和產生用量報告的詳細資訊，請參閱在 HyperPod 中報告運算用量。

提示

若要尋找實際範例和解決方案，另請參閱 SageMaker HyperPod 中的 Amazon EKS 支援工作坊的可觀測性一節。

繼續下列主題，以設定 SageMaker HyperPod 叢集可觀測性。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

彈性訓練

模型可觀測性