大规模部署模型 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

大规模部署模型

为您的 SageMaker AI 端点设置自动缩放和 CloudWatch 监控,使其为生产做好准备。

为什么生产监控对于文本分类来说很重要

文本分类工作负载需要监控,因为它们:

  • 会经历具有处理峰值的可变流量模式。

  • 要求响应时间少于一秒。

  • 需要通过自动扩缩来优化成本。

先决条件

在开始之前,请确保您:

  • 您的 SageMaker AI 终端节点已从上一节中部署。

  • 您的终端节点名称(例如 jumpstart-dft-hf-tc)。

  • 你的AWS 区域(例如,us-east-2)。

有关端点创建或故障排除的信息,请参阅实时推理

设置生产监控

配置 CloudWatch 监控以跟踪模型在生产中的性能。

  1. 在你的 JupyterLab 空间中,打开你之前上传的评估包中的sagemaker_production_monitoring.ipynb笔记本。

  2. 在配置部分更新端点名称和区域。

  3. 按照笔记本说明操作以设置:

    • 自动扩缩(1-10 个实例,具体取决于流量)。

    • CloudWatch 延迟和调用阈值警报。

    • 用于可视化监控的指标控制面板。

验证您的设置

完成笔记本步骤后,请确认以下各项:

  • 端点状态InService

  • 自动扩缩:已配置 1-10 个实例。

  • CloudWatch 警报:2 个警报监控。

  • 指标:已注册 15 个以上的指标。

注意

警报最初可能会显示 INSUFFICIENT_DATA – 这属于正常现象,随着使用将逐步转变为 OK

监控端点

通过AWS管理控制台访问可视化监控:

有关更多信息,请参阅监控 SageMaker AI

管理成本并清理资源

您的监控设置可提供宝贵的生产见解,但也会通过 CloudWatch 指标、警报和自动缩放策略持续产生AWS费用。了解这些成本的管理方式,对于实现高性价比的运营至关重要。在不再需要资源时将其清除。

警告

即使未处理请求,您的端点也会持续产生费用。要停止所有费用,您必须删除端点。有关说明,请参阅删除端点和资源

有关高级监控配置,请参阅 SageMaker AI CloudWatch 指标