本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
對 Amazon SageMaker HyperPod 可觀測性附加元件進行故障診斷
使用以下指引來解決 Amazon SageMaker HyperPod (SageMaker HyperPod) 可觀測性附加元件的常見問題。
對 Amazon Managed Grafana 中缺少的指標進行故障診斷
如果指標未出現在 Amazon Managed Grafana 儀表板中,請執行下列步驟來識別並解決問題。
驗證 Amazon Managed Service for Prometheus-Amazon Managed Grafana 連線
-
登入 Amazon Managed Grafana 主控台。
-
在左側窗格中,選擇所有工作區。
-
在工作區表格中,選擇您的工作區。
-
在工作區的詳細資訊頁面中,選擇資料來源索引標籤。
-
確認 Amazon Managed Service for Prometheus 資料來源是否存在。
-
檢查連線設定:
-
確認端點 URL 正確。
-
確認已正確設定 IAM 身分驗證。
-
選擇 Test connection (測試連線)。確認狀態為資料來源正在運作。
-
驗證 Amazon EKS 附加元件狀態
在 https://console.aws.amazon.com/eks/home#/clusters
開啟 Amazon EKS 主控台。 -
選取您的叢集。
-
選擇附加元件索引標籤。
-
確認 SageMaker HyperPod 可觀測性附加元件已列出,且其狀態為 ACTIVE。
-
如果狀態不是 ACTIVE,請複製錯誤訊息並聯絡 AWS 支援。
驗證 Pod Identity 關聯
在 https://console.aws.amazon.com/eks/home#/clusters
開啟 Amazon EKS 主控台。 -
選取您的叢集。
-
在叢集詳細資訊頁面上,選擇存取索引標籤。
-
在 Pod 身分關聯表格中,選擇具有下列屬性值的關聯:
-
命名空間:
hyperpod-observability
-
服務帳戶:
hyperpod-observability-operator-otel-collector
-
附加元件:
amazon-sagemaker-hyperpod-observability
-
-
確定連接至此關聯的 IAM 角色具有下列許可。
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
AWS 區域
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS 區域
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS 區域
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
檢查 Amazon Managed Service for Prometheus 限流
-
登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/servicequotas/
開啟 Service Quotas 主控台。 -
在受管配額方塊中,搜尋並選取 Amazon Managed Service for Prometheus。
-
選擇每個工作區配額的作用中系列。
-
在資源層級配額索引標籤中,選取您的 Amazon Managed Service for Prometheus 工作區。
-
確保使用率低於您目前的配額。
-
如果您已達到配額限制,請選擇左側的選項按鈕來選取您的工作區,然後選擇在資源層級請求增加。
對附加元件安裝失敗進行故障診斷
如果可觀測性附加元件無法安裝,請使用下列步驟來診斷和解決問題。
檢查運作狀態探查狀態
-
在 https://console.aws.amazon.com/eks/home#/clusters
開啟 Amazon EKS 主控台。 -
選取您的叢集。
-
選擇附加元件索引標籤。
-
選擇失敗的附加元件。
-
檢閱運作狀態問題區段。
-
請聯絡 AWS Support 以取得問題詳細資訊。
檢閱管理員日誌
-
取得附加元件管理員 Pod:
kubectl get pods -n hyperpod-observability | grep manager
-
檢查日誌:
kubectl logs -n kube-system
addon-manager-pod-name
如有緊急問題,請聯絡 AWS 支援。