对 Amazon SageMaker HyperPod 可观测性附加组件进行故障排除 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对 Amazon SageMaker HyperPod 可观测性附加组件进行故障排除

使用以下指南来解决 Amazon SageMaker HyperPod (SageMaker HyperPod) 可观察性附加组件的常见问题。

对亚马逊托管 Grafana 中缺少的指标进行故障排除

如果您的 Amazon Managed Grafana 控制面板中未显示指标,请执行以下步骤来识别和解决问题。

验证亚马逊托管服务与 Prometheus-Amazon Managed Grafana 的连接

  1. 登录亚马逊托管 Grafana 控制台。

  2. 在左侧窗格中,选择 “所有工作空间”。

  3. 在 “工作空间” 表格中,选择您的工作空间。

  4. 在工作空间的详细信息页面中,选择数据源选项卡。

  5. 验证适用于 Prometheus 的亚马逊托管服务数据源是否存在。

  6. 检查连接设置:

    • 确认终端节点 URL 是否正确。

    • 验证 IAM 身份验证的配置是否正确。

    • 选择 Test connection (测试连接)。验证状态是否为 “数据源正在运行”。

验证 Amazon EKS 附加组件状态

  1. https://console.aws.amazon.com/eks/home#/ clusters 中打开 Amazon EKS 控制台。

  2. 选择您的集群。

  3. 选择附加组件选项卡。

  4. 确认已列出 SageMaker HyperPod 可观测性插件且其状态是否为 AC TIVE。

  5. 如果状态不是 “激活”,请复制错误消息并联系 AWS 支持。

验证 Pod 身份关联

  1. https://console.aws.amazon.com/eks/home#/ clusters 中打开 Amazon EKS 控制台。

  2. 选择您的集群。

  3. 在集群详细信息页面上,选择访问选项卡。

  4. Pod 身份关联表中,选择具有以下属性值的关联:

    • 命名空间hyperpod-observability

    • 服务账号hyperpod-observability-operator-otel-collector

    • 附加组件amazon-sagemaker-hyperpod-observability

  5. 确保附加到此关联的 IAM 角色具有以下权限。

    { "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:AWS 区域:account-ID:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS 区域:account-ID:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS 区域:account-ID:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }

查看亚马逊托管服务,了解 Prometheus 的限流情况

  1. 登录 AWS Management Console 并打开 Service Quotas 控制台,网址为https://console.aws.amazon.com/servicequotas/

  2. 托管配额框中,搜索并选择适用于 Prometheus 的亚马逊托管服务。

  3. 选择每个工作空间的活动系列配额。

  4. 在 “资源级配额” 选项卡中,选择适用于 Prometheus 的亚马逊托管服务工作空间。

  5. 确保利用率低于您当前的配额。

  6. 如果您已达到配额限制,请通过选择工作空间左侧的单选按钮来选择您的工作空间,然后选择在资源级别请求增加

插件安装失败疑难解答

如果无法安装可观察性插件,请使用以下步骤来诊断和解决问题。

检查健康探测器状态

  1. https://console.aws.amazon.com/eks/home#/ clusters 中打开 Amazon EKS 控制台。

  2. 选择您的集群。

  3. 选择附加组件选项卡。

  4. 选择失败的附加组件。

  5. 查看 “Health 问题” 部分。

  6. 请联系 S AWS upport 并提供问题详情。

查看经理日志

  1. 获取插件管理器窗格:

    kubectl get pods -n hyperpod-observability | grep manager
  2. 查看日志:

    kubectl logs -n kube-system addon-manager-pod-name

如有紧急问题,请联系 AWS 支持。