本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
針對 Amazon SageMaker HyperPod 可觀測性附加元件進行疑難排解
使用以下指引來解決 Amazon SageMaker HyperPod (SageMaker HyperPod) 可觀測性附加元件的常見問題。
針對 Amazon Managed Grafana 中缺少的指標進行疑難排解
如果指標未出現在 Amazon Managed Grafana 儀表板中,請執行下列步驟來識別並解決問題。
驗證 Amazon Managed Service for Prometheus-Amazon Managed Grafana 連線
-
登入 Amazon Managed Grafana 主控台。
-
在左側窗格中,選擇所有工作區。
-
在工作區資料表中,選擇您的工作區。
-
在工作區的詳細資訊頁面中,選擇資料來源索引標籤。
-
驗證 Amazon Managed Service for Prometheus 資料來源是否存在。
-
檢查連線設定:
-
確認端點 URL 正確。
-
驗證是否已正確設定 IAM 驗證。
-
選擇 Test connection (測試連線)。驗證狀態是否為資料來源運作中。
-
驗證 Amazon EKS 附加元件狀態
在 https://console.aws.amazon.com/eks/home#/clusters
開啟 Amazon EKS 主控台。 -
選取您的叢集。
-
選擇附加元件索引標籤。
-
驗證 SageMaker HyperPod 可觀測性附加元件是否已列出,且其狀態是否為 ACTIVE。
-
如果狀態不是 ACTIVE,請參閱針對附加元件安裝失敗進行疑難排解。
驗證 Pod 身分識別關聯
在 https://console.aws.amazon.com/eks/home#/clusters
開啟 Amazon EKS 主控台。 -
選取您的叢集。
-
在叢集詳細資訊窗格上,選擇存取索引標籤。
-
在 Pod 身分識別關聯資料表中,選擇具有下列屬性值的關聯:
-
命名空間:
hyperpod-observability -
服務帳戶:
hyperpod-observability-operator-otel-collector -
附加元件:
amazon-sagemaker-hyperpod-observability
-
-
確定連接至此關聯的 IAM 角色具有下列許可。
-
確定連接至此關聯的 IAM 角色具有下列信任政策。驗證來源 ARN 和來源帳戶是否正確。
檢查 Amazon Managed Service for Prometheus 限流
-
登入 AWS 管理主控台,並在 https://https://console.aws.amazon.com/servicequotas/
開啟 Service Quotas 主控台。 -
在受管配額方塊中,搜尋並選取 Amazon Managed Service for Prometheus。
-
選擇每個工作區的作用中系列配額。
-
在資源層級配額索引標籤中,選取您的 Amazon Managed Service for Prometheus 工作區。
-
確保使用率低於您目前的配額。
-
如果您已達到配額限制,請選擇左側的選項按鈕來選取您的工作區,然後選擇在資源層級請求增加。
確認已啟用 KV 快取和智慧型路由
如果KVCache Metrics儀表板遺失,則未啟用功能,或未於 中提及連接埠modelMetrics。如需如何啟用此功能的詳細資訊,請參閱 中的步驟 1 和 3設定 KV 快取和智慧型路由以提升效能。
如果Intelligent Router Metrics儀表板遺失,請啟用 功能使其顯示。如需如何啟用此功能的詳細資訊,請參閱 設定 KV 快取和智慧型路由以提升效能。
針對附加元件安裝失敗進行疑難排解
如果可觀測性附加元件無法安裝,請使用下列步驟來診斷並解決問題。
檢查運作狀態探查狀態
-
在 https://console.aws.amazon.com/eks/home#/clusters
開啟 Amazon EKS 主控台。 -
選取您的叢集。
-
選擇附加元件索引標籤。
-
選擇失敗的附加元件。
-
檢閱運作狀態問題區段。
-
如果運作狀態問題與憑證或 Pod 身分識別有關,請參閱驗證 Pod 身分識別關聯。同時確保 Pod 身分識別代理程式附加元件正在叢集中執行。
-
檢查管理員日誌中是否有錯誤。如需說明,請參閱檢閱管理員日誌。
-
請聯絡 AWSSupport 以取得問題詳細資訊。
檢閱管理員日誌
-
取得附加元件管理員 Pod:
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
如有緊急問題,請聯絡 支援。
檢閱所有可觀測性 Pod
SageMaker HyperPod 可觀測性附加元件建立的所有 Pod 都位於 hyperpod-observability 命名空間中。若要取得這些 Pod 的狀態,請執行以下命令。
kubectl get pods -n hyperpod-observability
尋找狀態為 pending 或 crashloopbackoff 的 Pod。執行下列命令以取得這些待定或失敗 Pod 的日誌。
kubectl logs -n hyperpod-observability pod-name
如果您在日誌中找不到錯誤,請執行下列命令來描述 Pod 並尋找錯誤。
kubectl describe -n hyperpod-observability pod pod-name
若要取得更多內容,請執行下列兩個命令來描述這些 Pod 的部署和常駐程式集。
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
針對卡在待定狀態的 Pod 進行疑難排解
如果您看到有 Pod 卡在 pending 狀態,請確定節點夠大,足以容納所有 Pod。若要驗證是否如此,請執行下列步驟。
在以下網址開啟 Amazon EKS 主控台:https://console.aws.amazon.com/eks/home#/clusters
。 -
選擇您的叢集。
-
選擇叢集的運算索引標籤。
-
選擇執行個體類型最小的節點。
-
在容量配置區段中,尋找可用的 Pod。
-
如果沒有可用的 Pod,則您需要較大的執行個體類型。
如有緊急問題,請聯絡 AWS 支援。