疑難排解 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解

以下頁面包含針對 HyperPod EKS 叢集進行疑難排解的已知解決方案。

儀表板索引標籤

無法安裝 EKS 附加元件

若要讓 EKS 附加元件安裝成功,您將需要 Kubernets 版本 >= 1.30。若要更新,請參閱更新 Kubernetes 版本

若要讓 EKS 附加元件安裝成功,所有節點都必須處於備妥狀態,且所有 Pod 都必須處於執行中狀態。

若要檢查節點的狀態,請使用 list-cluster-nodesAWS CLI命令或導覽至 EKS 主控台中的 EKS 叢集,並檢視節點的狀態。解決每個節點的問題,或聯絡您的管理員。如果節點狀態為不明,請刪除節點。一旦所有節點狀態都是備妥,請從 Amazon SageMaker AI 主控台重試在 HyperPod 中安裝 EKS 附加元件。

若要檢查 Pod 的狀態,請使用 Kubernetes CLI 命令 kubectl get pods -n cloudwatch-agent,或在 EKS 主控台中導覽至您的 EKS 叢集,並使用命名空間 cloudwatch-agent 檢視 Pod 的狀態。解決 Pod 的問題,或聯絡您的管理員以解決問題。一旦所有 Pod 狀態都是執行中,請從 Amazon SageMaker AI 主控台重試在 HyperPod 中安裝 EKS 附加元件。

如需更多疑難排解,請參閱針對 Amazon CloudWatch 可觀測性 EKS 附加元件進行疑難排解

任務索引標籤

如果您看到有關為何未在叢集上設定自訂資源定義 (CRD) 的錯誤訊息,請將 EKSAdminViewPolicyClusterAccessRole 政策授予您的網域執行角色。

政策

以下列出了使用 HyperPod API 或主控台解決政策相關錯誤的解決方案。

  • 如果政策處於 CreateFailedCreateRollbackFailed 狀態,您需要刪除失敗的政策並建立新的政策。

  • 如果政策處於 UpdateFailed 狀態,請使用相同的政策 ARN 重試更新。

  • 如果政策處於 UpdateRollbackFailed 狀態,您需要刪除失敗的政策,然後建立新的政策。

  • 如果政策處於 DeleteFailedDeleteRollbackFailed 狀態,請使用相同的政策 ARN 重試刪除。

    • 如果您在嘗試使用 HyperPod 主控台刪除運算優先順序或叢集政策時遇到錯誤,請使用 API 刪除 cluster-scheduler-config。若要檢查資源的狀態,請前往運算配置的詳細資訊頁面。

若要查看失敗的詳細資訊,請使用 describe API。

刪除叢集

下列列出與刪除叢集相關的錯誤的已知解決方案。

  • 當叢集刪除由於連接的 SageMaker HyperPod 任務治理政策而失敗時,您將需要 刪除政策

  • 當叢集刪除由於缺少下列許可而失敗時,您將需要更新您的叢集管理員最低許可集。請參閱 叢集管理員的 IAM 使用者 區段中的 Amazon EKS 索引標籤。

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig