

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 大规模部署模型
<a name="jumpstart-text-classification-scale"></a>

为您的 SageMaker AI 端点设置自动缩放和 CloudWatch 监控，使其为生产做好准备。

## 为什么生产监控对于文本分类来说很重要
<a name="w2aac37c15c27b5"></a>

文本分类工作负载需要监控，因为它们：
+ 会经历具有处理峰值的可变流量模式。
+ 要求响应时间少于一秒。
+ 需要通过自动扩缩来优化成本。

## 先决条件
<a name="w2aac37c15c27b7"></a>

在开始之前，请确保您：
+ 您的 SageMaker AI 终端节点已从上一节中部署。
+ 您的终端节点名称（例如 jumpstart-dft-hf-tc）。
+ 你的 AWS 区域 （例如，us-east-2）。

有关端点创建或故障排除的信息，请参阅[实时推理](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html)。

## 设置生产监控
<a name="w2aac37c15c27b9"></a>

配置 CloudWatch 监控以跟踪模型在生产中的性能。

1. 在你的 JupyterLab 空间中，打开你之前上传的评估包中的`sagemaker_production_monitoring.ipynb`笔记本。

1. 在配置部分更新端点名称和区域。

1. 按照笔记本说明操作以设置：
   + 自动扩缩（1-10 个实例，具体取决于流量）。
   + CloudWatch 延迟和调用阈值警报。
   + 用于可视化监控的指标控制面板。

## 验证您的设置
<a name="w2aac37c15c27c11"></a>

完成笔记本步骤后，请确认以下各项：
+ **端点状态**：`InService`。
+ **自动扩缩：**已配置 1-10 个实例。
+ **CloudWatch 警报**：2 个警报监控。
+ **指标**：已注册 15 个以上的指标。

**注意**  
警报最初可能会显示 `INSUFFICIENT_DATA` – 这属于正常现象，随着使用将逐步转变为 `OK`。

## 监控端点
<a name="w2aac37c15c27c13"></a>

通过 AWS 管理控制台访问可视化监控：
+ [CloudWatch Metrics](https://console.aws.amazon.com/cloudwatch/home#metricsV2:graph=~();query=AWS/SageMaker)
+ [CloudWatch 警报](https://console.aws.amazon.com/cloudwatch/home#alarmsV2:)

有关更多信息，请参阅[监控 SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-overview.html)。

## 管理成本并清理资源
<a name="w2aac37c15c27c15"></a>

您的监控设置可提供宝贵的生产见解，但也会通过 CloudWatch 指标、警报和自动缩放策略持续产生 AWS 费用。了解这些成本的管理方式，对于实现高性价比的运营至关重要。在不再需要资源时将其清除。

**警告**  
即使未处理请求，您的端点也会持续产生费用。要停止所有费用，您必须删除端点。有关说明，请参阅[删除端点和资源](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints-delete-resources.html)。

有关高级监控配置，请参阅 [ SageMaker AI CloudWatch 指标](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)。