本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon CloudWatch 的可觀測性
使用 Amazon CloudWatch Container Insights 收集、彙總和摘要與 HyperPod 叢集相關聯之 EKS 叢集上容器化應用程式和微服務中的指標和日誌。
Amazon CloudWatch Insights 會收集運算資源的指標,例如 CPU、記憶體、磁碟和網路。Container Insights 還提供診斷資訊,例如容器重新啟動故障,協助您快速隔離和解決這些故障。您也可以為 Container Insights 收集的指標設定 CloudWatch 警示。
若要尋找指標的完整清單,請參閱《Amazon EKS 使用者指南》中的 Amazon EKS 和 Kubernetes Container Insights 指標。
安裝 CloudWatch Container Insights
叢集管理員使用者必須依照安裝 CloudWatch 代理程式的指示,使用 CloudWatch Amazon CloudWatch 可觀測性 EKS 附加元件或 CloudWatch 使用者指南中的 Helm Chart 來設定 CloudWatch Container Insights。 CloudWatch Amazon CloudWatch 如需 Amazon EKS 附加元件的詳細資訊,請參閱《Amazon EKS 使用者指南》中的安裝 Amazon CloudWatch 可觀測性 EKS 附加元件。
安裝完成後,請確認 CloudWatch Observability 附加元件會顯示在 EKS 叢集附加元件索引標籤中。可能需要幾分鐘的時間,儀表板才會載入。
注意
SageMaker HyperPod 需要 CloudWatch Insight v2.0.1-eksbuild.1 或更新版本。

存取 CloudWatch 容器洞察日誌
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 -
選擇 Logs (日誌),然後選擇 Log groups (日誌群組)。
當您將 HyperPod 叢集與 Amazon CloudWatch Container Insights 整合時,您可以使用下列格式存取相關的日誌群組:/aws/containerinsights /<eks-cluster-name>/*
。在此日誌群組中,您可以尋找和探索各種類型的日誌,例如效能日誌、主機日誌、應用程式日誌和資料平面日誌。