本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
故障診斷
下一節列出 Studio 中 HyperPod 的疑難排解解決方案。
任務索引標籤
如果您在任務索引標籤中未設定叢集上的自訂資源定義 (CRD)。
-
將
EKSAdminViewPolicy和ClusterAccessRole政策授予您的網域執行角色。如需如何將標籤新增至執行角色的資訊,請參閱標籤 IAM 角色。
若要了解如何將政策連接至 IAM 使用者或群組,請參閱新增和移除 IAM 身分許可。
如果 Slurm 指標的任務網格未停止載入任務索引標籤。
-
請確定在 AWS Session Manager 偏好設定中
RunAs啟用 ,以及您正在使用的角色已連接SSMSessionRunAs標籤。-
若要啟用
RunAs,請導覽至 Systems Manager 主控台中的偏好設定索引標籤。
-
對於 Studio for EKS 叢集中的受限任務檢視:
-
如果您的執行角色沒有列出 EKS 叢集命名空間的許可。
-
如果使用者在存取 EKS 叢集時遇到問題。
-
執行下列 AWS CLI 命令,確認已啟用 RBAC。
kubectl api-versions | grep rbac這應該會傳回 rbac.authorization.k8s.io/v1。
-
執行下列命令,檢查
ClusterRole和ClusterRoleBinding是否存在。kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding -
驗證使用者群組成員資格。確定使用者已正確指派給身分提供者或 IAM 中的
pods-events-crd-cluster-level群組。
-
-
如果使用者看不到任何資源。
-
驗證群組成員資格,並確保
ClusterRoleBinding正確套用 。
-
-
如果使用者可以看到所有命名空間中的資源。
-
如果需要命名空間限制,請考慮使用
Role和 ,RoleBinding而非ClusterRole和ClusterRoleBinding。
-
-
如果組態顯示正確,但未套用許可。
-
檢查是否有任何
NetworkPolicies或PodSecurityPolicies干擾存取。
-
指標索引標籤
如果指標索引標籤中沒有顯示 Amazon CloudWatch 指標。
-
HyperPod 叢集詳細資訊的
Metrics區段使用 CloudWatch 來擷取資料。若要查看本節中的指標,您需要啟用 叢集和任務可觀測性。請聯絡您的管理員以設定指標。