本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
故障排除
下一页包含用于对 HyperPod EKS 集群进行故障排除的已知解决方案。
“控制面板”选项卡
EKS 加载项安装失败
要成功安装 EKS 加载项,您需要拥有 Kubernets 版本 1.30 或更高版本。要进行更新,请参阅更新 Kubernetes 版本。
要成功安装 EKS 加载项,所有节点都必须处于就绪状态,并且所有容器组(pod)都必须处于正在运行状态。
要检查节点的状态,请使用list-cluster-nodesAWS CLI命令或在 EKS 控制台中导航到 EKS
要检查容器组(pod)的状态,请使用 Kubernetes CLIkubectl get pods -n cloudwatch-agent 或在 EKS 控制台cloudwatch-agent 的节点的状态。解决容器组(pod)的相关问题,或联系您的管理员来解决这些问题。所有 pod 状态均为 “运行” 后,请重试 HyperPod 从 A mazon A SageMaker I
有关更多疑难解答,请参阅对 Amazon CloudWatch 可观察性 EKS 附加组件进行故障排除。
“任务”选项卡
如果您看到表明未在集群上配置自定义资源定义(CRD)的错误消息,请向您的域执行角色授予 EKSAdminViewPolicy 和 ClusterAccessRole 策略。
-
有关如何获取执行角色的信息,请参阅获取执行角色。
-
要了解如何将策略附加到 IAM 用户或组,请参阅添加和移除 IAM 身份权限。
策略
下面列出了使用 HyperPod APIs 或控制台解决与策略相关的错误的解决方案。
-
如果策略处于
CreateFailed或CreateRollbackFailed状态,则需要删除失败的策略并创建一个新策略。 -
如果策略处于
UpdateFailed状态,请使用相同的策略 ARN 重试更新。 -
如果策略处于
UpdateRollbackFailed状态,则需要删除失败的策略,然后创建一个新策略。 -
如果策略处于
DeleteFailed或DeleteRollbackFailed状态,请使用相同的策略 ARN 重试删除。-
如果您在尝试使用 HyperPod 控制台删除计算优先级或集群策略时遇到错误,请尝试
cluster-scheduler-config使用 API 将其删除。要检查资源的状态,请转到计算资源分配的详细信息页面。
-
要查看有关失败的更多详细信息,请使用描述 API。
删除集群
下文列出了与删除集群相关的错误的已知解决方法。
-
当由于附加的 SageMaker HyperPod 任务治理策略而导致集群删除失败时,您将需要这样做删除策略。
-
当集群删除操作因缺少以下权限而失败时,您需要更新集群管理员的最低权限集。请参阅集群管理员的 IAM 用户部分中的 Amazon EKS 选项卡。
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-