本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
对 Amazon SageMaker HyperPod 可观测性附加组件进行故障排除
使用以下指南来解决 Amazon SageMaker HyperPod (SageMaker HyperPod) 可观察性附加组件的常见问题。
对亚马逊托管 Grafana 中缺少的指标进行故障排除
如果您的 Amazon Managed Grafana 控制面板中未显示指标,请执行以下步骤来识别和解决问题。
验证亚马逊托管服务与 Prometheus-Amazon Managed Grafana 的连接
-
登录亚马逊托管 Grafana 控制台。
-
在左侧窗格中,选择 “所有工作空间”。
-
在 “工作空间” 表格中,选择您的工作空间。
-
在工作空间的详细信息页面中,选择数据源选项卡。
-
验证适用于 Prometheus 的亚马逊托管服务数据源是否存在。
-
检查连接设置:
-
确认终端节点 URL 是否正确。
-
验证 IAM 身份验证的配置是否正确。
-
选择 Test connection (测试连接)。验证状态是否为 “数据源正在运行”。
-
验证 Amazon EKS 附加组件状态
在 https://console.aws.amazon.com/eks/home#/
clusters 中打开 Amazon EKS 控制台。 -
选择您的集群。
-
选择附加组件选项卡。
-
确认已列出 SageMaker HyperPod 可观测性插件且其状态是否为 AC TIVE。
-
如果状态不是 “激活”,请复制错误消息并联系 AWS 支持。
验证 Pod 身份关联
在 https://console.aws.amazon.com/eks/home#/
clusters 中打开 Amazon EKS 控制台。 -
选择您的集群。
-
在集群详细信息页面上,选择访问选项卡。
-
在 Pod 身份关联表中,选择具有以下属性值的关联:
-
命名空间:
hyperpod-observability
-
服务账号:
hyperpod-observability-operator-otel-collector
-
附加组件:
amazon-sagemaker-hyperpod-observability
-
-
确保附加到此关联的 IAM 角色具有以下权限。
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
AWS 区域
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS 区域
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS 区域
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
查看亚马逊托管服务,了解 Prometheus 的限流情况
-
登录 AWS Management Console 并打开 Service Quotas 控制台,网址为https://console.aws.amazon.com/servicequotas/
。 -
在托管配额框中,搜索并选择适用于 Prometheus 的亚马逊托管服务。
-
选择每个工作空间的活动系列配额。
-
在 “资源级配额” 选项卡中,选择适用于 Prometheus 的亚马逊托管服务工作空间。
-
确保利用率低于您当前的配额。
-
如果您已达到配额限制,请通过选择工作空间左侧的单选按钮来选择您的工作空间,然后选择在资源级别请求增加。
插件安装失败疑难解答
如果无法安装可观察性插件,请使用以下步骤来诊断和解决问题。
检查健康探测器状态
-
在 https://console.aws.amazon.com/eks/home#/
clusters 中打开 Amazon EKS 控制台。 -
选择您的集群。
-
选择附加组件选项卡。
-
选择失败的附加组件。
-
查看 “Health 问题” 部分。
-
请联系 S AWS upport 并提供问题详情。
查看经理日志
-
获取插件管理器窗格:
kubectl get pods -n hyperpod-observability | grep manager
-
查看日志:
kubectl logs -n kube-system
addon-manager-pod-name
如有紧急问题,请联系 AWS 支持。