控制面板设置 - Amazon SageMaker AI

控制面板设置

根据以下信息设置 Amazon SageMaker HyperPod Amazon CloudWatch 可观测性 EKS 加载项。这将为您提供一个详细的可视化控制面板,该控制面板可让您查看 EKS 集群硬件、团队分配和任务的指标。

如果您在设置时遇到问题,请参阅故障排除以获取已知的故障排除解决方案。

HyperPod Amazon CloudWatch 可观测性 EKS 加载项先决条件

以下部分包括安装 Amazon EKS 可观测性加载项之前所需满足的先决条件。

  • 确保已在集群管理员的 IAM 用户中为 HyperPod 集群管理员设置最低权限策略。

  • CloudWatchAgentServerPolicy IAM 策略附加到 Worker 节点。为此,请输入以下命令。将 my-worker-node-role 替换为您的 Kubernetes Worker 节点使用的 IAM 角色。

    aws iam attach-role-policy \ --role-name my-worker-node-role \ --policy-arn arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy

HyperPod Amazon CloudWatch 可观测性 EKS 加载项设置

根据以下选项设置 Amazon SageMaker HyperPod Amazon CloudWatch 可观测性 EKS 加载项。

Setup using the SageMaker AI console

需要以下权限才能设置和可视化 HyperPod 任务治理控制面板。此部分扩展了集群管理员的 IAM 用户中列出的权限。

要管理任务治理,请使用示例策略:

JSON
JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "sagemaker:ListClusters", "sagemaker:DescribeCluster", "sagemaker:ListComputeQuotas", "sagemaker:CreateComputeQuota", "sagemaker:UpdateComputeQuota", "sagemaker:DescribeComputeQuota", "sagemaker:DeleteComputeQuota", "sagemaker:ListClusterSchedulerConfigs", "sagemaker:DescribeClusterSchedulerConfig", "sagemaker:CreateClusterSchedulerConfig", "sagemaker:UpdateClusterSchedulerConfig", "sagemaker:DeleteClusterSchedulerConfig", "eks:ListAddons", "eks:CreateAddon", "eks:DescribeAddon", "eks:DescribeCluster", "eks:DescribeAccessEntry", "eks:ListAssociatedAccessPolicies", "eks:AssociateAccessPolicy", "eks:DisassociateAccessPolicy" ], "Resource": "*" } ] }

要授予权限以通过 SageMaker AI 控制台管理 Amazon CloudWatch 可观测性 Amazon EKS,并查看 HyperPod 集群控制面板,请使用以下示例策略:

JSON
JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "sagemaker:ListComputeQuotas", "sagemaker:DescribeComputeQuota", "sagemaker:ListClusterSchedulerConfigs", "sagemaker:DescribeClusterSchedulerConfig", "eks:DescribeCluster", "cloudwatch:GetMetricData", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

导航到 SageMaker HyperPod 控制台中的控制面板选项卡,以安装 Amazon CloudWatch 可观测性 EKS。要确保控制面板中包含与任务治理相关的指标,请选中 Kueue 指标复选框。启用 Kueue 指标后,在达到免费套餐限制时将启用 CloudWatch 指标成本。有关更多信息,请参阅 Amazon CloudWatch 定价中的指标

Setup using the EKS AWS CLI

使用以下 EKS AWS CLI 命令来安装加载项:

aws eks create-addon --cluster-name cluster-name --addon-name amazon-cloudwatch-observability --configuration-values "configuration json"

下面是配置值 JSON 示例:

{ "agent": { "config": { "logs": { "metrics_collected": { "kubernetes": { "kueue_container_insights": true, "enhanced_container_insights": true }, "application_signals": { } } }, "traces": { "traces_collected": { "application_signals": { } } } }, }, }
Setup using the EKS Console UI
  1. 导航到 EKS 控制台

  2. 选择您的集群。

  3. 选择附加组件

  4. 找到 Amazon CloudWatch 可观测性加载项并进行安装。安装该加载项的 2.4.0 版或更高版本。

  5. 包括以下 JSON 配置值:

    { "agent": { "config": { "logs": { "metrics_collected": { "kubernetes": { "kueue_container_insights": true, "enhanced_container_insights": true }, "application_signals": { } }, }, "traces": { "traces_collected": { "application_signals": { } } } }, }, }

在成功安装 EKS 可观测性加载项后,可以在 HyperPod 控制台的控制面板选项卡的下方,查看 EKS 集群指标。