View a markdown version of this page

Amazon SageMaker AI 增强了推理终端节点的指标 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker AI 增强了推理终端节点的指标

增强型指标为 Ama SageMaker zon AI 实时终端节点提供实例级和容器级监控数据。启用增强型指标后,Amazon CloudWatch 指标可以包括InstanceIdContainerId、和AcceleratorId维度(可用性因命名空间而异),以获得每个实例、每个容器和每个 GPU 的精细可见性。增强型指标适用于单模型端点和推理组件。 Multi-Container 终端节点 (MCE) 支持实例级增强指标,但不支持容器级指标。

增强指标的主要特征:

  • Instance-level 粒度。利用率和调用指标包括一个用于标识托管终端节点的特定实例的InstanceId维度。这适用于所有实时端点。

  • Container-level 粒度。对于使用推理组件的端点,指标包括一个用于标识运行模型的特定容器的ContainerId维度。 Container-level 维度同时出现在AWS/SageMaker命名空间(调用指标)和/aws/sagemaker/InferenceComponents命名空间(利用率指标)中。

  • Per-GPU 粒度。GPU 利用率指标包括一个用于标识实例上特定 GPU 的AcceleratorId维度。

  • 可配置的发布频率。您可以将指标发布间隔配置为 10、30、60、120、180、240 或 300 秒。默认值为 60 秒。无论是否启用增强型指标,此间隔都适用于利用率指标。启用增强型指标后,它也适用于调用指标。

启用增强指标

在调用 CreateEndpointConfigAPI 时,您可以通过TrueMetricsConfig参数中设置为EnableEnhancedMetrics来启用增强指标。

MetricsConfig参数包含以下字段:

MetricsConfig 参数
参数 Type 必需 默认值 说明
EnableEnhancedMetrics 布尔值 False

启用实例级和容器级指标维度。

MetricPublishFrequencyInSeconds 整数 60

将指标发布到 Amazon 的时间间隔,以秒为单位 CloudWatch。默认值为 60。有效值:103060120180240300。设置EnableEnhancedMetrics为时False,此间隔仅适用于利用率指标;调用指标将继续按默认的 60 秒间隔发布。设置为时True,此间隔适用于利用率和调用指标。

注意

MetricsConfig是在端点配置级别设置的。您不能在同一个端点上为各个推理组件配置不同的设置。

要在现有终端节点上启用增强型指标,请使用所需MetricsConfig设置创建新的终端节点配置,然后使用新的终端节点配置名称UpdateEndpoint进行调用。这会触发 blue/green 或滚动部署。部署完成后才会显示增强指标。在已配置的端点上更改MetricsConfig设置时,同样的过程也适用。

配置时MetricsConfigDescribeEndpoint和都会在响应MetricsConfigDescribeEndpointConfig返回。

启用增强型指标后, SageMaker AI 会为三个 CloudWatch 命名空间的指标添加其他维度:/aws/sagemaker/Endpoints利用率指标、调AWS/SageMaker用指标和/aws/sagemaker/InferenceComponents推理组件利用率指标。

Instance-level 利用率指标

/aws/sagemaker/Endpoints命名空间包括所有实时端点的利用率指标,包括那些使用推理组件的终端节点。启用增强型指标后,InstanceIdAcceleratorId(仅限 GPU 指标)维度将与现有命名空间维度一起可用。有关指标和维度的完整列表,请参阅SageMaker AI 终端节点指标

启用增强指标后,还会有以下其他维度可用:

实例级利用率指标的其他维度
维度 说明
InstanceId

筛选特定实例的利用率指标。

AcceleratorId

(仅限 GPU 指标)筛选特定 GPU 的利用率指标。

实例和容器级别的调用指标

AWS/SageMaker命名空间包括调用指标。启用增强型指标后,InstanceIdContainerId(仅限推理组件)维度将与现有命名空间维度一起可用。有关指标和维度的完整列表,请参阅SageMaker AI 终端节点调用指标

启用增强指标后,还会有以下其他维度可用:

调用指标的其他维度
维度 说明
InstanceId

筛选特定实例的调用指标。

ContainerId

(仅限推理组件)筛选特定容器的调用指标。

Container-level 利用率指标

/aws/sagemaker/InferenceComponents命名空间包括使用推理组件的端点的利用率指标。启用增强型指标后,InstanceIdContainerId、和AcceleratorId(仅限 GPU 指标)维度将与现有命名空间维度一起可用。有关指标和维度的完整列表,请参阅SageMaker AI 推理组件指标

启用增强指标后,还会有以下其他维度可用:

容器级利用率指标的其他维度
维度 说明
InstanceId

筛选特定实例的利用率指标。

ContainerId

筛选特定容器的利用率指标。

AcceleratorId

(仅限 GPU 指标)筛选特定 GPU 的利用率指标。

可配置的指标频率

您可以配置将指标发布到的时间间隔 CloudWatch。默认频率为 60 秒。

有效值:10、30、60、120、180、240 或 300 秒。

设置EnableEnhancedMetrics为时False,此频率仅适用于利用率指标;调用指标将继续按默认的 60 秒间隔发布。设置为时True,此频率适用于利用率和调用指标。

注意

以小于 60 秒(高分辨率)的时间间隔发布的指标将保留 3 小时。

标准 CloudWatch 定价适用于每个指标的唯一维度组合。增强型指标会增加指标流的数量,因为每个实例、容器和 GPU 都会创建额外的维度组合。有关定价详情,请参阅 Amazon CloudWatch 定价

代码示例:配置增强型指标

以下示例说明如何创建启用增强指标的终端节点配置以及如何验证配置。

使用增强的指标创建终端节点配置

AWS SDK for Python (Boto3)
例使用增强的指标创建终端节点配置
import boto3 sagemaker_client = boto3.client('sagemaker') response = sagemaker_client.create_endpoint_config( EndpointConfigName='my-enhanced-metrics-config', ProductionVariants=[ { 'VariantName': 'AllTraffic', 'ModelName': 'my-model', 'InstanceType': 'ml.m5.xlarge', 'InitialInstanceCount': 2, } ], MetricsConfig={ 'EnableEnhancedMetrics': True, 'MetricPublishFrequencyInSeconds': 60 } )
AWS CLI
例使用增强的指标创建终端节点配置
aws sagemaker create-endpoint-config \ --endpoint-config-name my-enhanced-metrics-config \ --production-variants file://production-variants.json \ --metrics-config file://metrics-config.json

其中 metrics-config.json 包含:

{ "EnableEnhancedMetrics": true, "MetricPublishFrequencyInSeconds": 60 }

验证增强型指标配置

AWS SDK for Python (Boto3)
例验证增强型指标配置
response = sagemaker_client.describe_endpoint_config( EndpointConfigName='my-enhanced-metrics-config' ) print(response['MetricsConfig']) # {'EnableEnhancedMetrics': True, 'MetricPublishFrequencyInSeconds': 60} response = sagemaker_client.describe_endpoint( EndpointName='my-endpoint' ) print(response['MetricsConfig'])
AWS CLI
例验证增强型指标配置
aws sagemaker describe-endpoint-config \ --endpoint-config-name my-enhanced-metrics-config \ --query 'MetricsConfig'
aws sagemaker describe-endpoint \ --endpoint-name my-endpoint \ --query 'MetricsConfig'