本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
大规模部署模型
为您的 SageMaker AI 端点设置自动缩放和 CloudWatch 监控,使其为生产做好准备。
为什么生产监控对于文本分类来说很重要
文本分类工作负载需要监控,因为它们:
会经历具有处理峰值的可变流量模式。
要求响应时间少于一秒。
需要通过自动扩缩来优化成本。
先决条件
在开始之前,请确保您:
您的 SageMaker AI 终端节点已从上一节中部署。
您的终端节点名称(例如 jumpstart-dft-hf-tc)。
你的AWS 区域(例如,us-east-2)。
有关端点创建或故障排除的信息,请参阅实时推理。
设置生产监控
配置 CloudWatch 监控以跟踪模型在生产中的性能。
-
在你的 JupyterLab 空间中,打开你之前上传的评估包中的
sagemaker_production_monitoring.ipynb笔记本。 -
在配置部分更新端点名称和区域。
-
按照笔记本说明操作以设置:
自动扩缩(1-10 个实例,具体取决于流量)。
CloudWatch 延迟和调用阈值警报。
用于可视化监控的指标控制面板。
验证您的设置
完成笔记本步骤后,请确认以下各项:
端点状态:
InService。自动扩缩:已配置 1-10 个实例。
CloudWatch 警报:2 个警报监控。
指标:已注册 15 个以上的指标。
注意
警报最初可能会显示 INSUFFICIENT_DATA – 这属于正常现象,随着使用将逐步转变为 OK。
监控端点
通过AWS管理控制台访问可视化监控:
有关更多信息,请参阅监控 SageMaker AI。
管理成本并清理资源
您的监控设置可提供宝贵的生产见解,但也会通过 CloudWatch 指标、警报和自动缩放策略持续产生AWS费用。了解这些成本的管理方式,对于实现高性价比的运营至关重要。在不再需要资源时将其清除。
警告
即使未处理请求,您的端点也会持续产生费用。要停止所有费用,您必须删除端点。有关说明,请参阅删除端点和资源。
有关高级监控配置,请参阅 SageMaker AI CloudWatch 指标。