本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon CloudWatch 指标监控容量预留使用情况
您可以使用 Amazon CloudWatch 指标来监控与您的 SageMaker 培训计划相关的容量预留的利用率。此功能允许您访问有关实例使用情况的历史和实时指标(个人计划级别和账户中所有计划),因此您可以就容量和成本做出明智的决策。这些指标将直接发布在您的账户中, SageMaker 培训计划服务将无法访问它们。
入职注意事项
AWSServiceRoleForSageMakerCapacityReservation服务关联角色 (SLR) 必须存在于您的账户中,才能发布指标。您需要为账户角色添加iam:CreateServiceLinkedRole权限。 SageMaker 下次你打电话CreateTrainingPlan时,AI 会自动设置所需的单反相机。设置单反相机后,将提供购买新套餐的 CloudWatch 指标。
需要将以下声明添加到您的 IAM 策略中:
{ "Effect": "Allow", "Action": "iam:CreateServiceLinkedRole", "Resource": "*", "Condition": { "StringEquals": { "iam:AWSServiceName": "capacityreservation.sagemaker.amazonaws.com" } } }
注意
当该Resource字段设置为"*"(必填CreateServiceLinkedRole)时,该Condition区块将此权限限制为仅创建 SageMaker AI 容量预留 SLR。此外,如果由于某种原因删除了该角色,则会在下次通过 API 或控制台CreateTrainingPlan调用时重新创建该角色。
手动创建服务相关角色
您也可以通过运行以下命令来创建单反相机, AWS CLI 而不必依赖 SageMaker AI 进行设置:
aws iam create-service-linked-role --aws-service-name capacityreservation.sagemaker.amazonaws.com
此命令在您的账户中创建AWSServiceRoleForSageMakerCapacityReservation角色。有关服务相关角色的更多信息,请参阅使用服务相关角色。
重要
只有在创建 SLR 之后,该服务才会开始发布指标。在创建单反相机之前购买的计划不会显示任何较早的使用率数据。 CloudWatch
容量预留使用率指标
SageMaker AI 在aws/sagemaker/CapacityReservations命名空间中发布以下指标。
| 指标 | 描述 |
|---|---|
UsedInstanceCount |
当前正在使用的实例数。单位:计数 |
AvailableInstanceCount |
可用实例的数量。单位:个 |
TotalInstanceCount |
您的训练计划中的实例总数。单位:个 |
InstanceUtilization |
当前正在使用的预留容量实例的百分比。单位:百分比 |
容量预留指标维度
您可以使用以下维度来筛选指标。
| 维度 | 说明 |
|---|---|
ReservationName |
按名称筛选指标。 |
ComponentType |
按 SageMaker AI 组件(例如 SageMaker HyperPod 集群、Training Job、推理端点或 Studio 应用程序)筛选指标。 |
AvailabilityZone |
按可用区筛选指标。 |
InstanceType |
按实例类型筛选指标。 |
ReservationType |
按预留类型筛选指标 (TrainingPlan)。 |
查看 Amazon 容量预留 CloudWatch 指标
您可以使用 Amazon CloudWatch 控制台或查看容量预留指标 AWS CLI。
使用 Amazon CloudWatch 控制台查看容量预留指标
-
打开 CloudWatch 控制台,网址为https://console.aws.amazon.com/cloudwatch/
。 -
在导航窗格中,选择指标,然后选择所有指标。
-
选择
aws/sagemaker/CapacityReservations命名空间。 -
选择要筛选的指标维度。
-
选中指标旁边的复选框以将其绘制成图表。
要使用列出可用指标 AWS CLI,请运行以下命令:
aws cloudwatch list-metrics --namespace "aws/sagemaker/CapacityReservations"