疑難排解 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解

下節列出 Studio 中 HyperPod 的疑難排解解決方案。

任務索引標籤

如果您在任務索引標籤時收到未在叢集上設定自訂資源定義 (CRD)

  • EKSAdminViewPolicyClusterAccessRole 政策授予您的網域執行角色。

    如需如何將標籤新增至執行角色的相關資訊,請參閱標記 IAM 角色

    若要了解如何將政策附加至 IAM 使用者或群組,請參閱新增和移除 IAM 身分許可

如果 Slurm 指標的任務網格未停止在任務索引標籤中載入。

對於 Studio for EKS 叢集中的受限任務檢視:

  • 如果您的執行角色沒有列出 EKS 叢集命名空間的許可。

  • 如果使用者在存取 EKS 叢集時遇到問題。

    1. 執行下列AWS CLI命令,確認已啟用 RBAC。

      kubectl api-versions | grep rbac

      這應該會傳回 rbac.authorization.k8s.io/v1。

    2. 執行下列命令,檢查 ClusterRoleClusterRoleBinding 是否存在。

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. 驗證使用者群組成員資格。確定使用者已正確指派給身分提供者或 IAM 中的 pods-events-crd-cluster-level 群組。

  • 如果使用者看不到任何資源。

    • 驗證群組成員資格,並確保正確套用 ClusterRoleBinding

  • 如果使用者可以看到所有命名空間中的資源。

    • 如果需要命名空間限制,請考慮使用 RoleRoleBinding,而非 ClusterRoleClusterRoleBinding

  • 如果組態看起來正確,但未套用許可。

    • 檢查是否有任何 NetworkPoliciesPodSecurityPolicies 干擾存取。

指標索引標籤

如果指標索引標籤中沒有顯示 Amazon CloudWatch 指標。

  • HyperPod 叢集詳細資訊的 Metrics 區段使用 CloudWatch 來擷取資料。為了查看本節中的指標,您需要已啟用 叢集和任務可觀測性。請聯絡您的管理員以設定指標。