本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
疑難排解
以下頁面包含針對 HyperPod EKS 叢集進行疑難排解的已知解決方案。
儀表板索引標籤
無法安裝 EKS 附加元件
若要讓 EKS 附加元件安裝成功,您將需要 Kubernets 版本 >= 1.30。若要更新,請參閱更新 Kubernetes 版本。
若要讓 EKS 附加元件安裝成功,所有節點都必須處於備妥狀態,且所有 Pod 都必須處於執行中狀態。
若要檢查節點的狀態,請使用 list-cluster-nodesAWS CLI命令或導覽至 EKS 主控台中的 EKS
若要檢查 Pod 的狀態,請使用 Kubernetes CLIkubectl get pods -n cloudwatch-agent,或在 EKS 主控台cloudwatch-agent 檢視 Pod 的狀態。解決 Pod 的問題,或聯絡您的管理員以解決問題。一旦所有 Pod 狀態都是執行中,請從 Amazon SageMaker AI 主控台
如需更多疑難排解,請參閱針對 Amazon CloudWatch 可觀測性 EKS 附加元件進行疑難排解。
任務索引標籤
如果您看到有關為何未在叢集上設定自訂資源定義 (CRD) 的錯誤訊息,請將 EKSAdminViewPolicy 和 ClusterAccessRole 政策授予您的網域執行角色。
-
如需有關如何取得執行角色的資訊,請參閱取得您的執行角色。
-
若要了解如何將政策附加至 IAM 使用者或群組,請參閱新增和移除 IAM 身分許可。
政策
以下列出了使用 HyperPod API 或主控台解決政策相關錯誤的解決方案。
-
如果政策處於
CreateFailed或CreateRollbackFailed狀態,您需要刪除失敗的政策並建立新的政策。 -
如果政策處於
UpdateFailed狀態,請使用相同的政策 ARN 重試更新。 -
如果政策處於
UpdateRollbackFailed狀態,您需要刪除失敗的政策,然後建立新的政策。 -
如果政策處於
DeleteFailed或DeleteRollbackFailed狀態,請使用相同的政策 ARN 重試刪除。-
如果您在嘗試使用 HyperPod 主控台刪除運算優先順序或叢集政策時遇到錯誤,請使用 API 刪除
cluster-scheduler-config。若要檢查資源的狀態,請前往運算配置的詳細資訊頁面。
-
若要查看失敗的詳細資訊,請使用 describe API。
刪除叢集
下列列出與刪除叢集相關的錯誤的已知解決方案。
-
當叢集刪除由於連接的 SageMaker HyperPod 任務治理政策而失敗時,您將需要 刪除政策。
-
當叢集刪除由於缺少下列許可而失敗時,您將需要更新您的叢集管理員最低許可集。請參閱 叢集管理員的 IAM 使用者 區段中的 Amazon EKS 索引標籤。
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-