SageMaker 推論

自訂 Amazon Nova 模型現在可在 SageMaker 推論上使用。使用 SageMaker 上的 Amazon Nova，您可以從訓練過的自訂 Amazon Nova 模型開始取得預測或推論。SageMaker 提供廣泛的機器學習 (ML) 基礎架構和模型部署選項，有助於滿足您所有的機器學習推論需求。使用 SageMaker 推論，您可以擴展模型部署、更有效地在生產環境中管理模型，並減少營運負擔。

SageMaker 提供各種推論選項，例如取得低延遲推論的即時端點，以及批次請求的非同步端點。透過為您的使用案例利用適當的推論選項，您可以確保高效的模型部署和推論。如需 SageMaker 推論的詳細資訊，請參閱部署模型以進行推論。

重要

SageMaker 推論僅支援全階自訂模型和 LoRA 合併模型。對於未合併的 LoRA 模型和基礎模型，請使用 Amazon Bedrock。

功能

下列功能適用於 SageMaker 推論上的 Amazon Nova 模型：

模型功能

產生文字

部署和擴展

具有自訂執行個體選擇的即時端點
Auto Scaling – 根據流量模式自動調整容量，以最佳化成本和 GPU 使用率。如需詳細資訊，請參閱自動擴展 Amazon SageMaker 模型。
串流 API 支援即時產生字符

監控和最佳化

用於監控和警示的 Amazon CloudWatch 整合
透過 VPC 組態進行可用區域感知延遲最佳化

開發工具

AWS CLI 支援 – 如需詳細資訊，請參閱 AWS SageMaker 的 CLI 命令參考。
透過 SDK 支援進行筆記本整合

支援的模型和執行個體

建立 SageMaker 推論端點時，您可以設定兩個環境變數來設定部署： CONTEXT_LENGTH和 MAX_CONCURRENCY。

CONTEXT_LENGTH – 每個請求的總字符長度上限（輸入 + 輸出）
MAX_CONCURRENCY – 端點將服務的並行請求數目上限

下表列出支援的 Amazon Nova 模型、執行個體類型和支援的組態。MAX_CONCURRENCY 值代表每個 CONTEXT_LENGTH 設定支援的並行上限：

模型	執行個體類型	支援的組態	FP8 量化必要
Amazon Nova Micro	ml.g5.12xlarge	CONTEXT_LENGTH：4000，MAX_CONCURRENCY：12 CONTEXT_LENGTH：8000，MAX_CONCURRENCY：6	否
	ml.g5.24xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	否
	ml.g6e.xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：2	否
	ml.g6e.2xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：2	否
	ml.g6e.4xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：4	否
	ml.g6.12xlarge	CONTEXT_LENGTH：4000，MAX_CONCURRENCY：12 CONTEXT_LENGTH：8000，MAX_CONCURRENCY：6	否
	ml.g6.24xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	否
	ml.g6.48xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：12	否
	ml.p5.48xlarge	CONTEXT_LENGTH：16000，MAX_CONCURRENCY：128 CONTEXT_LENGTH：64000，MAX_CONCURRENCY：32 CONTEXT_LENGTH：128000，MAX_CONCURRENCY：8	否
Amazon Nova Lite	ml.g6.12xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：2	是 - 預設啟用
	ml.g6.24xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：4	是 - 預設啟用
	ml.g6.48xlarge	CONTEXT_LENGTH：4000，MAX_CONCURRENCY：16 CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	否
	ml.p5.48xlarge	CONTEXT_LENGTH：16000，MAX_CONCURRENCY：128 CONTEXT_LENGTH：60000，MAX_CONCURRENCY：8	否
Nova 2 Lite	ml.g6.48xlarge	CONTEXT_LENGTH：8000，MAX_CONCURRENCY：8	是 - 預設啟用
Nova 2 Lite	ml.p5.48xlarge	CONTEXT_LENGTH：16000，MAX_CONCURRENCY：128 CONTEXT_LENGTH：64000，MAX_CONCURRENCY：32 CONTEXT_LENGTH：128000，MAX_CONCURRENCY：8 CONTEXT_LENGTH：256000，MAX_CONCURRENCY：2	否

注意

對於需要 FP8 量化的執行個體，預設會啟用。

顯示的 MAX_CONCURRENCY 值是每個 CONTEXT_LENGTH 設定的上限。您可以使用相同並行的較低內容長度，但超過這些值會導致 SageMaker 端點建立失敗。

例如，在具有 ml.g5.12xlarge 的 Amazon Nova Micro 上：

CONTEXT_LENGTH=2000、→ MAX_CONCURRENCY=12 有效
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=12→ 已拒絕（內容長度為 8000 的並行限制為 6)
CONTEXT_LENGTH=8000、→ MAX_CONCURRENCY=4 有效
CONTEXT_LENGTH=8000、→ MAX_CONCURRENCY=6 有效
CONTEXT_LENGTH=10000 → 拒絕（此執行個體的最大內容長度為 8000)

推論元件

您可以使用 SageMaker 推論元件部署 Amazon Nova 模型，這可讓您在單一端點上託管多個模型，並最佳化資源使用率。推論元件可讓您指定每個模型所需的運算資源 (CPU、記憶體、GPU)，在共用基礎設施上實現高效的多模型託管。

下表列出使用推論元件時，每個 Amazon Nova 模型的最低運算資源需求：

模型	最小 CPU 核心	最小記憶體 (MB)	最小 GPU 計數
Amazon Nova Micro	15	25000	4
Amazon Nova Lite	20	35000	4
Nova 2 Lite	20	100000	4

注意

對於您要部署的模型，這些ComputeResourceRequirements值必須符合或超過上表中列出的最低需求。使用低於最小值的值會導致推論元件建立失敗。

您可以在同一個端點上部署多個推論元件，只要總資源需求不超過執行個體的容量即可。

您可以在單一端點上託管的推論元件數量取決於執行個體類型的可用資源和每個模型的最低需求。例如，在 ml.p5.48xlarge(8 個 GPUs、192 vCPUs、~1 TB 記憶體）上：

1 個 Amazon Nova Micro 推論元件 (4 GPUs、15 個 CPU 核心、25000 MB) → 有效
2 個 Amazon Nova Micro 推論元件（總共 8 GPUs，30 個 CPU 核心，50000 MB) → 有效（適用於執行個體容量）
1 Nova 2 Lite 推論元件 (4 GPUs、20 個 CPU 核心、100000 MB) → 有效
2 Nova 2 Lite 推論元件（總共 8 GPUs，40 個 CPU 核心，200000 MB) → 有效
3 個 Amazon Nova Micro 推論元件（總共 12 GPUs) → 已拒絕（超過 8 個可用的 GPUs)

支援 AWS 的區域

下表列出可在 SageMaker 推論上使用 Amazon Nova 模型 AWS 的區域：

區域名稱	區域代碼	可用性
美國東部 (維吉尼亞北部)	us-east-1	Available
美國西部 (奧勒岡)	us-west-2	Available

支援的容器映像

下表依區域列出 SageMaker 推論上 Amazon Nova 模型的容器映像 URIs。SM-Inference-latest 標籤目前指向 v1.4。

區域	容器映像 URIs
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

最佳實務

如需在 SageMaker 上部署和管理模型的最佳實務，請參閱 SageMaker 的最佳實務。

支援

如需 SageMaker 推論上 Amazon Nova 模型的問題和支援，請透過主控台或您的 AWS 客戶經理聯絡 AWS Support。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

模型合併

開始使用