本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker 推論
自訂 Amazon Nova 模型現在可在 SageMaker 推論上使用。使用 SageMaker 上的 Amazon Nova,您可以從訓練過的自訂 Amazon Nova 模型開始取得預測或推論。SageMaker 提供廣泛的機器學習 (ML) 基礎架構和模型部署選項,有助於滿足您所有的機器學習推論需求。透過 SageMaker 推論,您可以擴展模型部署、更有效地在生產環境中管理模型,並減少營運負擔。
SageMaker 為您提供各種推論選項,例如取得低延遲推論的即時端點,以及批次請求的非同步端點。透過為您的使用案例利用適當的推論選項,您可以確保高效的模型部署和推論。如需 SageMaker 推論的詳細資訊,請參閱部署模型以進行推論。
重要
SageMaker 推論僅支援全階自訂模型和 LoRA 合併模型。對於未合併的 LoRA 模型和基礎模型,請使用 Amazon Bedrock。
功能
下列功能適用於 SageMaker 推論上的 Amazon Nova 模型:
模型功能
-
產生文字
部署和擴展
-
具有自訂執行個體選擇的即時端點
-
Auto Scaling – 根據流量模式自動調整容量,以最佳化成本和 GPU 使用率。如需詳細資訊,請參閱自動擴展 Amazon SageMaker 模型。
-
串流 API 支援即時產生字符
監控和最佳化
-
用於監控和警示的 Amazon CloudWatch 整合
-
透過 VPC 組態進行可用區域感知延遲最佳化
開發工具
-
AWS CLI 支援 – 如需詳細資訊,請參閱 AWS SageMaker 的 CLI 命令參考。
-
透過 SDK 支援進行筆記本整合
支援的模型和執行個體
建立 SageMaker 推論端點時,您可以設定兩個環境變數來設定部署: CONTEXT_LENGTH和 MAX_CONCURRENCY。
-
CONTEXT_LENGTH– 每個請求的總字符長度上限 (輸入 + 輸出) -
MAX_CONCURRENCY– 端點將服務的並行請求數目上限
下表列出支援的 Amazon Nova 模型、執行個體類型和支援的組態。MAX_CONCURRENCY 值代表每個 CONTEXT_LENGTH 設定支援的並行上限:
| 模型 | 執行個體類型 | 支援的組態 |
|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16 |
| ml.g5.24xlarge | CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 | |
| ml.g6.12xlarge |
CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16 |
|
| ml.g6.24xlarge | CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 | |
| ml.g6.48xlarge | CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 | |
| ml.p5.48xlarge |
CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2 CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1 |
|
| Amazon Nova Lite | ml.g6.48xlarge |
CONTEXT_LENGTH:4000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:8000,MAX_CONCURRENCY:16 |
| ml.p5.48xlarge |
CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2 CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1 |
|
| Nova 2 Lite | ml.p5.48xlarge |
CONTEXT_LENGTH:8000,MAX_CONCURRENCY:32 CONTEXT_LENGTH:16000,MAX_CONCURRENCY:2 CONTEXT_LENGTH:24000,MAX_CONCURRENCY:1 |
注意
顯示的 MAX_CONCURRENCY 值是每個 CONTEXT_LENGTH 設定的上限。您可以使用相同並行的較低內容長度,但超過這些值會導致 SageMaker 端點建立失敗。
例如,在具有 ml.g5.12xlarge 的 Amazon Nova Micro 上:
-
CONTEXT_LENGTH=2000、→MAX_CONCURRENCY=32有效 -
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=32→ 已拒絕 (內容長度為 8000 的並行限制為 16) -
CONTEXT_LENGTH=8000、→MAX_CONCURRENCY=4有效 -
CONTEXT_LENGTH=8000、→MAX_CONCURRENCY=16有效 -
CONTEXT_LENGTH=10000→ 拒絕 (此執行個體的最大內容為 8000)
支援 AWS 的區域
下表列出可在 SageMaker 推論上使用 Amazon Nova 模型 AWS 的區域:
| 區域名稱 | 區域代碼 | 可用性 |
|---|---|---|
| 美國東部 (維吉尼亞北部) | us-east-1 | Available |
| 美國西部 (奧勒岡) | us-west-2 | Available |
支援的容器映像
下表依區域列出 SageMaker 推論上 Amazon Nova 模型的容器映像 URIs。每個區域可使用兩個映像標籤:版本化標籤 (v1.0.0) 和最新標籤 (SM-Inference-latest)。對於生產部署,建議使用版本控制的標籤。
| 區域 | 容器映像 URIs |
|---|---|
| us-east-1 |
|
| us-west-2 |
|
最佳實務
如需在 SageMaker 上部署和管理模型的最佳實務,請參閱 SageMaker 的最佳實務。
支援
如需 SageMaker 推論上 Amazon Nova 模型的問題和支援,請透過主控台或您的 AWS 客戶經理聯絡 AWS Support。