

# SageMaker 推理
<a name="nova-model-sagemaker-inference"></a>

自定义 Amazon Nova 模型现已在 SageMaker 推理服务中推出。借助 SageMaker 上的 Amazon Nova，您可以对已训练好的自定义 Nova 模型执行预测（即推理）操作。SageMaker 提供多种 ML 基础设施和模型部署选项，以帮助满足您的所有 ML 推理需求。使用 SageMaker 推理，您能够实现模型部署弹性扩缩、在生产环境中更高效地管理模型，并降低运维负担。

SageMaker 支持多种推理方式，例如用于低延迟推理的实时端点，以及用于批量请求的异步端点。通过利用适合您使用案例的推理选项，您可以确保高效的模型部署和推理。有关 SageMaker 推理的更多信息，请[参阅部署模型用于推理](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html)。

**重要**  
SageMaker 推理仅支持全秩自定义模型和已合并 LoRA 的模型。对于未合并 LoRA 的模型及基础模型，请使用 Amazon Bedrock。

## 功能
<a name="nova-sagemaker-inference-features"></a>

以下为 Amazon Nova 模型在 SageMaker 推理中支持的功能：

**模型能力**
+ 文本生成

**部署与扩缩**
+ 支持自定义实例选型的实时端点
+ 自动扩缩：根据流量自动调整算力，优化成本与 GPU 利用率。有关更多信息，请参阅[自动扩缩 Amazon SageMaker 模型](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html)。
+ 支持流式 API，可实时生成词元

**监控与优化**
+ 集成 Amazon CloudWatch，用于监控与提醒
+ 通过 VPC 配置实现可用区域感知的时延优化

**开发工具**
+ 支持 AWS CLI：有关更多信息，请参阅 [SageMaker AWS CLI 命令参考](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/)。
+  支持通过 SDK 集成笔记本

## 支持的模型与实例
<a name="nova-sagemaker-inference-supported"></a>

创建 SageMaker 推理端点时，可设置两个环境变量来配置部署：`CONTEXT_LENGTH` 和 `MAX_CONCURRENCY`。
+ `CONTEXT_LENGTH`：单个请求的词元最大总长（输入 \$1 输出）
+ `MAX_CONCURRENCY`：端点可处理的最大并发请求数

下表列出了支持的 Amazon Nova 模型、实例类型及对应配置。MAX\$1CONCURRENCY 数值表示在每个 CONTEXT\$1LENGTH 设置下所支持的最大并发数：


****  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/nova/latest/nova2-userguide/nova-model-sagemaker-inference.html)

**注意**  
表格中显示的 MAX\$1CONCURRENCY 数值是对应 CONTEXT\$1LENGTH 设置的上限值。您可以在相同并发数下使用更短的上下文长度，但超出这些上限值将导致 SageMaker 端点创建失败。  
以 Amazon Nova Micro 搭配 ml.g5.12xlarge 为例：  
`CONTEXT_LENGTH=2000`，`MAX_CONCURRENCY=32`→ 有效
`CONTEXT_LENGTH=8000`，`MAX_CONCURRENCY=32`→ 无效（上下文长度 8000 时并发上限为 16）
`CONTEXT_LENGTH=8000`，`MAX_CONCURRENCY=4`→ 有效
`CONTEXT_LENGTH=8000`，`MAX_CONCURRENCY=16`→ 有效
`CONTEXT_LENGTH=10000` → 无效（该实例最大上下文长度为 8000）

## 支持的 AWS 区域
<a name="nova-sagemaker-inference-regions"></a>

下表列出了 Amazon Nova 模型可在 SageMaker 推理中使用的 AWS 区域：


****  

| 区域名称 | 区域代码 | 可用性 | 
| --- | --- | --- | 
| 美国东部（弗吉尼亚州北部） | us-east-1 | 可用 | 
| 美国西部（俄勒冈州） | us-west-2 | 可用 | 

## 支持的区域与容器映像
<a name="nova-sagemaker-inference-container-images"></a>

下表按区域列出了 Amazon Nova 模型在 SageMaker 推理中使用的容器映像 URI。每个区域提供两种映像标签：版本化标签 (`v1.0.0`) 和最新标签 (`SM-Inference-latest`)。生产环境部署时，建议使用版本化标签。


****  

| 区域 | 容器映像 URI | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## 最佳实践
<a name="nova-sagemaker-inference-best-practices"></a>

有关在 SageMaker 上部署和管理模型的最佳实践，请参阅 [SageMaker 最佳实践](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html)。

## 支持
<a name="nova-sagemaker-inference-support"></a>

如在 SageMaker 推理中使用 Amazon Nova 模型时遇到问题或需要支持，可通过控制台或 AWS 客户经理联系 AWS Support。

**Topics**
+ [功能](#nova-sagemaker-inference-features)
+ [支持的模型与实例](#nova-sagemaker-inference-supported)
+ [支持的 AWS 区域](#nova-sagemaker-inference-regions)
+ [支持的区域与容器映像](#nova-sagemaker-inference-container-images)
+ [最佳实践](#nova-sagemaker-inference-best-practices)
+ [支持](#nova-sagemaker-inference-support)
+ [入门](nova-sagemaker-inference-getting-started.md)
+ [API 参考](nova-sagemaker-inference-api-reference.md)
+ [评估在 SageMaker 推理上托管的模型](nova-eval-on-sagemaker-inference.md)
+ [在 Amazon SageMaker Inference 滥用检测中部署 Amazon Nova Forge 模型](nova-sagemaker-inference-abuse-detection.md)