SageMaker 推論 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker 推論

自訂 Amazon Nova 模型現在可在 SageMaker 推論上使用。使用 SageMaker 上的 Amazon Nova,您可以從訓練過的自訂 Amazon Nova 模型開始取得預測或推論。SageMaker 提供廣泛的機器學習 (ML) 基礎架構和模型部署選項,有助於滿足您所有的機器學習推論需求。透過 SageMaker 推論,您可以擴展模型部署、更有效地在生產環境中管理模型,並減少營運負擔。

SageMaker 為您提供各種推論選項,例如取得低延遲推論的即時端點,以及批次請求的非同步端點。透過為您的使用案例利用適當的推論選項,您可以確保高效的模型部署和推論。如需 SageMaker 推論的詳細資訊,請參閱部署模型以進行推論

重要

SageMaker 推論僅支援全階自訂模型和 LoRA 合併模型。對於未合併的 LoRA 模型和基礎模型,請使用 Amazon Bedrock。

功能

下列功能適用於 SageMaker 推論上的 Amazon Nova 模型:

模型功能

  • 產生文字

部署和擴展

  • 具有自訂執行個體選擇的即時端點

  • Auto Scaling – 根據流量模式自動調整容量,以最佳化成本和 GPU 使用率。如需詳細資訊,請參閱自動擴展 Amazon SageMaker 模型

  • 串流 API 支援即時產生字符

監控和最佳化

  • 用於監控和警示的 Amazon CloudWatch 整合

  • 透過 VPC 組態進行可用區域感知延遲最佳化

開發工具

支援的模型和執行個體

建立 SageMaker 推論端點時,您可以設定兩個環境變數來設定部署: CONTEXT_LENGTHMAX_CONCURRENCY

  • CONTEXT_LENGTH – 每個請求的總字符長度上限 (輸入 + 輸出)

  • MAX_CONCURRENCY – 端點將服務的並行請求數目上限

下表列出支援的 Amazon Nova 模型、執行個體類型和支援的組態。MAX_CONCURRENCY 值代表每個 CONTEXT_LENGTH 設定支援的並行上限:

模型 執行個體類型 支援的組態
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16

ml.g5.24xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32
ml.g6.12xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16

ml.g6.24xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32
ml.g6.48xlarge CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32
ml.p5.48xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2

CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1

Amazon Nova Lite ml.g6.48xlarge

CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16

ml.p5.48xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2

CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1

Nova 2 Lite ml.p5.48xlarge

CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32

CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2

CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1

注意

顯示的 MAX_CONCURRENCY 值是每個 CONTEXT_LENGTH 設定的上限。您可以使用相同並行的較低內容長度,但超過這些值會導致 SageMaker 端點建立失敗。

例如,在具有 ml.g5.12xlarge 的 Amazon Nova Micro 上:

  • CONTEXT_LENGTH=2000、→ MAX_CONCURRENCY=32 有效

  • CONTEXT_LENGTH=8000MAX_CONCURRENCY=32→ 已拒絕 (內容長度為 8000 的並行限制為 16)

  • CONTEXT_LENGTH=8000、→ MAX_CONCURRENCY=4 有效

  • CONTEXT_LENGTH=8000、→ MAX_CONCURRENCY=16 有效

  • CONTEXT_LENGTH=10000 → 拒絕 (此執行個體的最大內容為 8000)

支援 AWS 的區域

下表列出可在 SageMaker 推論上使用 Amazon Nova 模型 AWS 的區域:

區域名稱 區域代碼 可用性
美國東部 (維吉尼亞北部) us-east-1 Available
美國西部 (奧勒岡) us-west-2 Available

支援的容器映像

下表依區域列出 SageMaker 推論上 Amazon Nova 模型的容器映像 URIs。每個區域可使用兩個映像標籤:版本化標籤 (v1.0.0) 和最新標籤 (SM-Inference-latest)。對於生產部署,建議使用版本控制的標籤。

區域 容器映像 URIs
us-east-1

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest

us-west-2

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:v1.0.0

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

最佳實務

如需在 SageMaker 上部署和管理模型的最佳實務,請參閱 SageMaker 的最佳實務

支援

如需 SageMaker 推論上 Amazon Nova 模型的問題和支援,請透過主控台或您的 AWS 客戶經理聯絡 AWS Support。