View a markdown version of this page

使用 Amazon CloudWatch 指标监控容量预留使用情况 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon CloudWatch 指标监控容量预留使用情况

您可以使用 Amazon CloudWatch 指标来监控与您的 SageMaker 培训计划相关的容量预留的利用率。此功能允许您访问有关实例使用情况的历史和实时指标(个人计划级别和账户中所有计划),因此您可以就容量和成本做出明智的决策。这些指标将直接发布在您的账户中, SageMaker 培训计划服务将无法访问它们。

入职注意事项

AWSServiceRoleForSageMakerCapacityReservation服务关联角色 (SLR) 必须存在于您的账户中,才能发布指标。您需要为账户角色添加iam:CreateServiceLinkedRole权限。 SageMaker 下次你打电话CreateTrainingPlan时,AI 会自动设置所需的单反相机。设置单反相机后,将提供购买新套餐的 CloudWatch 指标。

需要将以下声明添加到您的 IAM 策略中:

{ "Effect": "Allow", "Action": "iam:CreateServiceLinkedRole", "Resource": "*", "Condition": { "StringEquals": { "iam:AWSServiceName": "capacityreservation.sagemaker.amazonaws.com" } } }
注意

当该Resource字段设置为"*"(必填CreateServiceLinkedRole)时,该Condition区块将此权限限制为仅创建 SageMaker AI 容量预留 SLR。此外,如果由于某种原因删除了该角色,则会在下次通过 API 或控制台CreateTrainingPlan调用时重新创建该角色。

手动创建服务相关角色

您也可以通过运行以下命令来创建单反相机, AWS CLI 而不必依赖 SageMaker AI 进行设置:

aws iam create-service-linked-role --aws-service-name capacityreservation.sagemaker.amazonaws.com

此命令在您的账户中创建AWSServiceRoleForSageMakerCapacityReservation角色。有关服务相关角色的更多信息,请参阅使用服务相关角色

重要

只有在创建 SLR 之后,该服务才会开始发布指标。在创建单反相机之前购买的计划不会显示任何较早的使用率数据。 CloudWatch

容量预留使用率指标

SageMaker AI 在aws/sagemaker/CapacityReservations命名空间中发布以下指标。

指标 描述
UsedInstanceCount 当前正在使用的实例数。单位:计数
AvailableInstanceCount 可用实例的数量。单位:个
TotalInstanceCount 您的训练计划中的实例总数。单位:个
InstanceUtilization 当前正在使用的预留容量实例的百分比。单位:百分比

容量预留指标维度

您可以使用以下维度来筛选指标。

维度 说明
ReservationName 按名称筛选指标。
ComponentType 按 SageMaker AI 组件(例如 SageMaker HyperPod 集群、Training Job、推理端点或 Studio 应用程序)筛选指标。
AvailabilityZone 按可用区筛选指标。
InstanceType 按实例类型筛选指标。
ReservationType 按预留类型筛选指标 (TrainingPlan)。

查看 Amazon 容量预留 CloudWatch 指标

您可以使用 Amazon CloudWatch 控制台或查看容量预留指标 AWS CLI。

使用 Amazon CloudWatch 控制台查看容量预留指标
  1. 打开 CloudWatch 控制台,网址为https://console.aws.amazon.com/cloudwatch/

  2. 在导航窗格中,选择指标,然后选择所有指标

  3. 选择 aws/sagemaker/CapacityReservations 命名空间。

  4. 选择要筛选的指标维度。

  5. 选中指标旁边的复选框以将其绘制成图表。

要使用列出可用指标 AWS CLI,请运行以下命令:

aws cloudwatch list-metrics --namespace "aws/sagemaker/CapacityReservations"