

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# SageMaker 推論
<a name="nova-model-sagemaker-inference"></a>

自訂 Amazon Nova 模型現在可在 SageMaker 推論上使用。使用 SageMaker 上的 Amazon Nova，您可以從訓練過的自訂 Amazon Nova 模型開始取得預測或推論。SageMaker 提供廣泛的機器學習 (ML) 基礎架構和模型部署選項，有助於滿足您所有的機器學習推論需求。透過 SageMaker 推論，您可以擴展模型部署、更有效地在生產環境中管理模型，並減少營運負擔。

SageMaker 為您提供各種推論選項，例如用於取得低延遲推論的即時端點，以及用於批次請求的非同步端點。透過為您的使用案例利用適當的推論選項，您可以確保高效的模型部署和推論。如需 SageMaker 推論的詳細資訊，請參閱[部署模型以進行推論](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html)。

**重要**  
SageMaker 推論僅支援全階自訂模型和 LoRA 合併模型。對於未合併的 LoRA 模型和基礎模型，請使用 Amazon Bedrock。

## 功能
<a name="nova-sagemaker-inference-features"></a>

下列功能適用於 SageMaker 推論上的 Amazon Nova 模型：

**模型功能**
+ 產生文字

**部署和擴展**
+ 具有自訂執行個體選擇的即時端點
+ Auto Scaling – 根據流量模式自動調整容量，以最佳化成本和 GPU 使用率。如需詳細資訊，請參閱[自動擴展 Amazon SageMaker 模型](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html)。
+ 串流 API 支援即時產生字符

**監控和最佳化**
+ 用於監控和警示的 Amazon CloudWatch 整合
+ 透過 VPC 組態進行可用區域感知延遲最佳化

**開發工具**
+ AWS CLI 支援 – 如需詳細資訊，請參閱 [AWS SageMaker 的 CLI 命令參考](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/)。
+  透過 SDK 支援進行筆記本整合

## 支援的模型和執行個體
<a name="nova-sagemaker-inference-supported"></a>

建立 SageMaker 推論端點時，您可以設定兩個環境變數來設定部署： `CONTEXT_LENGTH`和 `MAX_CONCURRENCY`。
+ `CONTEXT_LENGTH` – 每個請求的總字符長度上限 （輸入 \$1 輸出）
+ `MAX_CONCURRENCY` – 端點將服務的並行請求數目上限

下表列出支援的 Amazon Nova 模型、執行個體類型和支援的組態。MAX\$1CONCURRENCY 值代表每個 CONTEXT\$1LENGTH 設定支援的並行上限：


****  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/nova/latest/nova2-userguide/nova-model-sagemaker-inference.html)

**注意**  
對於需要 FP8 量化的執行個體，預設會啟用。  
顯示的 MAX\$1CONCURRENCY 值是每個 CONTEXT\$1LENGTH 設定的上限。您可以使用相同並行的較低內容長度，但超過這些值會導致 SageMaker 端點建立失敗。  
例如，在具有 ml.g5.12xlarge 的 Amazon Nova Micro 上：  
`CONTEXT_LENGTH=2000`、→ `MAX_CONCURRENCY=12` 有效
`CONTEXT_LENGTH=8000`、`MAX_CONCURRENCY=12`→ 已拒絕 （內容長度為 8000 的並行限制為 6)
`CONTEXT_LENGTH=8000`、→ `MAX_CONCURRENCY=4` 有效
`CONTEXT_LENGTH=8000`、→ `MAX_CONCURRENCY=6` 有效
`CONTEXT_LENGTH=10000` → 拒絕 （此執行個體的最大內容長度為 8000)

## 支援 AWS 的區域
<a name="nova-sagemaker-inference-regions"></a>

下表列出可在 SageMaker 推論上使用 Amazon Nova 模型 AWS 的區域：


****  

| 區域名稱 | 區域代碼 | 可用性 | 
| --- | --- | --- | 
| 美國東部 (維吉尼亞北部) | us-east-1 | Available | 
| 美國西部 (奧勒岡) | us-west-2 | Available | 

## 支援的容器映像
<a name="nova-sagemaker-inference-container-images"></a>

下表依區域列出 SageMaker 推論上 Amazon Nova 模型的容器映像 URIs。


****  

| 區域 | 容器映像 URIs | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## 最佳實務
<a name="nova-sagemaker-inference-best-practices"></a>

如需在 SageMaker 上部署和管理模型的最佳實務，請參閱 [ SageMaker 的最佳實務](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html)。

## 支援
<a name="nova-sagemaker-inference-support"></a>

如需 SageMaker 推論上 Amazon Nova 模型的問題和支援，請透過主控台或您的 AWS 客戶經理聯絡 AWS Support。

**Topics**
+ [功能](#nova-sagemaker-inference-features)
+ [支援的模型和執行個體](#nova-sagemaker-inference-supported)
+ [支援 AWS 的區域](#nova-sagemaker-inference-regions)
+ [支援的容器映像](#nova-sagemaker-inference-container-images)
+ [最佳實務](#nova-sagemaker-inference-best-practices)
+ [支援](#nova-sagemaker-inference-support)
+ [開始使用](nova-sagemaker-inference-getting-started.md)
+ [API 參考](nova-sagemaker-inference-api-reference.md)
+ [評估託管在 SageMaker 推論上的模型](nova-eval-on-sagemaker-inference.md)
+ [在 Amazon SageMaker 推論濫用偵測中部署 Amazon Nova Forge 模型](nova-sagemaker-inference-abuse-detection.md)