问题排查 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

问题排查

以下部分列出了 Studio HyperPod 中的故障排除解决方案。

“任务”选项卡

如果您收到 Custom Resource Definition (CRD) is not configured on the cluster 并且在任务选项卡中,则:

  • 向域执行角色授予 EKSAdminViewPolicyClusterAccessRole 策略。

    有关如何向执行角色添加标签的信息,请参阅标记 IAM 角色

    要了解如何将策略附加到 IAM 用户或组,请参阅添加和移除 IAM 身份权限

如果 Slurm 指标的任务网格未在任务选项卡中停止加载,则:

对于 Studio 中 EKS 集群的受限任务视图:

  • 如果执行角色不具有列出 EKS 集群命名空间的权限。

  • 如果用户在访问 EKS 集群时遇到问题,则:

    1. 运行以下AWS CLI命令验证 RBAC 是否已启用。

      kubectl api-versions | grep rbac

      这将返回 rbac.authorization.k8s.io/v1。

    2. 运行以下命令来检查 ClusterRoleClusterRoleBinding 是否存在。

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. 验证用户组成员资格。确保已将用户正确分配到身份提供者或 IAM 中的 pods-events-crd-cluster-level 组。

  • 如果用户无法查看任何资源,则:

    • 验证组成员资格并确保已正确应用 ClusterRoleBinding

  • 如果用户可以查看所有命名空间中的资源,则:

    • 在需要命名空间限制时,可以考虑使用 RoleRoleBinding 来代替 ClusterRoleClusterRoleBinding

  • 如果配置显示正确,但权限未被应用,则:

    • 检查是否存在任何 NetworkPoliciesPodSecurityPolicies 干扰访问。

“指标”选项卡

如果没有 Amazon CloudWatch 指标,则会在 “指标” 选项卡中显示。

  • HyperPod 集群详细信息Metrics部分 CloudWatch 用于获取数据。要查看此部分中的指标,您需要已启用集群和任务可观测性。请联系您的管理员以配置指标。