對 Amazon SageMaker HyperPod 可觀測性附加元件進行故障診斷 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

對 Amazon SageMaker HyperPod 可觀測性附加元件進行故障診斷

使用以下指引來解決 Amazon SageMaker HyperPod (SageMaker HyperPod) 可觀測性附加元件的常見問題。

對 Amazon Managed Grafana 中缺少的指標進行故障診斷

如果指標未出現在 Amazon Managed Grafana 儀表板中,請執行下列步驟來識別並解決問題。

驗證 Amazon Managed Service for Prometheus-Amazon Managed Grafana 連線

  1. 登入 Amazon Managed Grafana 主控台。

  2. 在左側窗格中,選擇所有工作區

  3. 工作區表格中,選擇您的工作區。

  4. 在工作區的詳細資訊頁面中,選擇資料來源索引標籤。

  5. 確認 Amazon Managed Service for Prometheus 資料來源是否存在。

  6. 檢查連線設定:

    • 確認端點 URL 正確。

    • 確認已正確設定 IAM 身分驗證。

    • 選擇 Test connection (測試連線)。確認狀態為資料來源正在運作

驗證 Amazon EKS 附加元件狀態

  1. https://console.aws.amazon.com/eks/home#/clusters 開啟 Amazon EKS 主控台。

  2. 選取您的叢集。

  3. 選擇附加元件索引標籤。

  4. 確認 SageMaker HyperPod 可觀測性附加元件已列出,且其狀態為 ACTIVE

  5. 如果狀態不是 ACTIVE,請複製錯誤訊息並聯絡 AWS 支援。

驗證 Pod Identity 關聯

  1. https://console.aws.amazon.com/eks/home#/clusters 開啟 Amazon EKS 主控台。

  2. 選取您的叢集。

  3. 在叢集詳細資訊頁面上,選擇存取索引標籤。

  4. Pod 身分關聯表格中,選擇具有下列屬性值的關聯:

    • 命名空間hyperpod-observability

    • 服務帳戶hyperpod-observability-operator-otel-collector

    • 附加元件amazon-sagemaker-hyperpod-observability

  5. 確定連接至此關聯的 IAM 角色具有下列許可。

    { "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:AWS 區域:account-ID:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS 區域:account-ID:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS 區域:account-ID:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }

檢查 Amazon Managed Service for Prometheus 限流

  1. 登入 AWS Management Console ,並在 https://https://console.aws.amazon.com/servicequotas/ 開啟 Service Quotas 主控台。

  2. 受管配額方塊中,搜尋並選取 Amazon Managed Service for Prometheus。

  3. 選擇每個工作區配額的作用中系列

  4. 資源層級配額索引標籤中,選取您的 Amazon Managed Service for Prometheus 工作區。

  5. 確保使用率低於您目前的配額。

  6. 如果您已達到配額限制,請選擇左側的選項按鈕來選取您的工作區,然後選擇在資源層級請求增加

對附加元件安裝失敗進行故障診斷

如果可觀測性附加元件無法安裝,請使用下列步驟來診斷和解決問題。

檢查運作狀態探查狀態

  1. https://console.aws.amazon.com/eks/home#/clusters 開啟 Amazon EKS 主控台。

  2. 選取您的叢集。

  3. 選擇附加元件索引標籤。

  4. 選擇失敗的附加元件。

  5. 檢閱運作狀態問題區段。

  6. 請聯絡 AWS Support 以取得問題詳細資訊。

檢閱管理員日誌

  1. 取得附加元件管理員 Pod:

    kubectl get pods -n hyperpod-observability | grep manager
  2. 檢查日誌:

    kubectl logs -n kube-system addon-manager-pod-name

如有緊急問題,請聯絡 AWS 支援。