針對 Amazon SageMaker HyperPod 可觀測性附加元件進行疑難排解 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

針對 Amazon SageMaker HyperPod 可觀測性附加元件進行疑難排解

使用以下指引來解決 Amazon SageMaker HyperPod (SageMaker HyperPod) 可觀測性附加元件的常見問題。

針對 Amazon Managed Grafana 中缺少的指標進行疑難排解

如果指標未出現在 Amazon Managed Grafana 儀表板中,請執行下列步驟來識別並解決問題。

驗證 Amazon Managed Service for Prometheus-Amazon Managed Grafana 連線

  1. 登入 Amazon Managed Grafana 主控台。

  2. 在左側窗格中,選擇所有工作區

  3. 工作區資料表中,選擇您的工作區。

  4. 在工作區的詳細資訊頁面中,選擇資料來源索引標籤。

  5. 驗證 Amazon Managed Service for Prometheus 資料來源是否存在。

  6. 檢查連線設定:

    • 確認端點 URL 正確。

    • 驗證是否已正確設定 IAM 驗證。

    • 選擇 Test connection (測試連線)。驗證狀態是否為資料來源運作中

驗證 Amazon EKS 附加元件狀態

  1. https://console.aws.amazon.com/eks/home#/clusters 開啟 Amazon EKS 主控台。

  2. 選取您的叢集。

  3. 選擇附加元件索引標籤。

  4. 驗證 SageMaker HyperPod 可觀測性附加元件是否已列出,且其狀態是否為 ACTIVE

  5. 如果狀態不是 ACTIVE,請參閱針對附加元件安裝失敗進行疑難排解

驗證 Pod 身分識別關聯

  1. https://console.aws.amazon.com/eks/home#/clusters 開啟 Amazon EKS 主控台。

  2. 選取您的叢集。

  3. 在叢集詳細資訊窗格上,選擇存取索引標籤。

  4. Pod 身分識別關聯資料表中,選擇具有下列屬性值的關聯:

    • 命名空間hyperpod-observability

    • 服務帳戶hyperpod-observability-operator-otel-collector

    • 附加元件amazon-sagemaker-hyperpod-observability

  5. 確定連接至此關聯的 IAM 角色具有下列許可。

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
  6. 確定連接至此關聯的 IAM 角色具有下列信任政策。驗證來源 ARN 和來源帳戶是否正確。

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "AllowEksAuthToAssumeRoleForPodIdentity", "Effect": "Allow", "Principal": { "Service": "pods.eks.amazonaws.com" }, "Action": [ "sts:AssumeRole", "sts:TagSession" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name", "aws:SourceAccount": "111122223333" } } } ] }

檢查 Amazon Managed Service for Prometheus 限流

  1. 登入 AWS 管理主控台,並在 https://https://console.aws.amazon.com/servicequotas/ 開啟 Service Quotas 主控台。

  2. 受管配額方塊中,搜尋並選取 Amazon Managed Service for Prometheus。

  3. 選擇每個工作區的作用中系列配額。

  4. 資源層級配額索引標籤中,選取您的 Amazon Managed Service for Prometheus 工作區。

  5. 確保使用率低於您目前的配額。

  6. 如果您已達到配額限制,請選擇左側的選項按鈕來選取您的工作區,然後選擇在資源層級請求增加

確認已啟用 KV 快取和智慧型路由

如果KVCache Metrics儀表板遺失,則未啟用功能,或未於 中提及連接埠modelMetrics。如需如何啟用此功能的詳細資訊,請參閱 中的步驟 1 和 3設定 KV 快取和智慧型路由以提升效能

如果Intelligent Router Metrics儀表板遺失,請啟用 功能使其顯示。如需如何啟用此功能的詳細資訊,請參閱 設定 KV 快取和智慧型路由以提升效能

針對附加元件安裝失敗進行疑難排解

如果可觀測性附加元件無法安裝,請使用下列步驟來診斷並解決問題。

檢查運作狀態探查狀態

  1. https://console.aws.amazon.com/eks/home#/clusters 開啟 Amazon EKS 主控台。

  2. 選取您的叢集。

  3. 選擇附加元件索引標籤。

  4. 選擇失敗的附加元件。

  5. 檢閱運作狀態問題區段。

  6. 如果運作狀態問題與憑證或 Pod 身分識別有關,請參閱驗證 Pod 身分識別關聯。同時確保 Pod 身分識別代理程式附加元件正在叢集中執行。

  7. 檢查管理員日誌中是否有錯誤。如需說明,請參閱檢閱管理員日誌

  8. 請聯絡 AWSSupport 以取得問題詳細資訊。

檢閱管理員日誌

  1. 取得附加元件管理員 Pod:

    kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager
  2. 如有緊急問題,請聯絡 支援。

檢閱所有可觀測性 Pod

SageMaker HyperPod 可觀測性附加元件建立的所有 Pod 都位於 hyperpod-observability 命名空間中。若要取得這些 Pod 的狀態,請執行以下命令。

kubectl get pods -n hyperpod-observability

尋找狀態為 pendingcrashloopbackoff 的 Pod。執行下列命令以取得這些待定或失敗 Pod 的日誌。

kubectl logs -n hyperpod-observability pod-name

如果您在日誌中找不到錯誤,請執行下列命令來描述 Pod 並尋找錯誤。

kubectl describe -n hyperpod-observability pod pod-name

若要取得更多內容,請執行下列兩個命令來描述這些 Pod 的部署和常駐程式集。

kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name

針對卡在待定狀態的 Pod 進行疑難排解

如果您看到有 Pod 卡在 pending 狀態,請確定節點夠大,足以容納所有 Pod。若要驗證是否如此,請執行下列步驟。

  1. 在以下網址開啟 Amazon EKS 主控台:https://console.aws.amazon.com/eks/home#/clusters

  2. 選擇您的叢集。

  3. 選擇叢集的運算索引標籤。

  4. 選擇執行個體類型最小的節點。

  5. 在容量配置區段中,尋找可用的 Pod。

  6. 如果沒有可用的 Pod,則您需要較大的執行個體類型。

如有緊急問題,請聯絡 AWS 支援。