在 Amazon SageMaker HyperPod 上部署模型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon SageMaker HyperPod 上部署模型

Amazon SageMaker HyperPod 現在延伸到訓練之外,以提供全面的推論平台,將 Kubernetes 的靈活性與 AWS 受管服務的卓越營運相結合。在整個模型生命週期中使用相同的 HyperPod 運算,以企業級可靠性部署、擴展和最佳化機器學習模型。

Amazon SageMaker HyperPod 提供靈活的部署介面,可讓您透過多種方法部署模型,包括 kubectl、Python SDK、Amazon SageMaker Studio UI 或 HyperPod CLI。此服務提供進階的自動擴展功能,搭配動態資源配置,可根據需求自動調整。此外,它還包含全面的可觀測性和監控功能,這些功能會追蹤關鍵指標,例如 time-to-first-token、延遲和 GPU 使用率,以協助您最佳化效能。

注意

在啟用 GPU 的執行個體上部署時,您可以使用 GPU 分割搭配多執行個體 GPU (MIG) 技術,在單一 GPU 上執行多個推論工作負載。這可提高 GPU 使用率和成本最佳化。如需設定 GPU 分割的詳細資訊,請參閱 在 Amazon SageMaker HyperPod 中使用 GPU 分割區

用於訓練和推論的統一基礎設施

透過在訓練與推論工作負載之間無縫轉換運算資源,將 GPU 使用率最大化。這可降低總擁有成本,同時維持營運持續性。

企業備妥部署選項

從多個來源部署模型,包括來自 Amazon SageMaker JumpStart 的開放權重和門控模型,以及來自 Amazon S3 和 Amazon FSx 的自訂模型,同時支援單節點和多節點推論架構。

受管分層金鑰值 (KV) 快取和智慧型路由

KV 快取會在處理先前的權杖後儲存預先計算的鍵值向量。處理下一個字符時,不需要重新計算向量。透過雙層快取架構,您可以設定使用 CPU 記憶體進行低延遲本機重複使用的 L1 快取,以及利用 Redis 啟用可擴展節點層級快取共用的 L2 快取。

智慧型路由會分析傳入的請求,並將其導向至最有可能具有相關快取金鑰值對的推論執行個體。系統會檢查請求,然後根據下列其中一個路由策略進行路由:

  1. prefixaware — 具有相同提示字首的後續請求會路由到相同的執行個體

  2. kvaware — 傳入的請求會路由至 KV 快取命中率最高的執行個體。

  3. session — 來自相同使用者工作階段的請求會路由至相同的執行個體。

  4. roundrobin — 即使在未考慮 KV 快取狀態的情況下,也會發佈請求。

如需如何啟用此功能的詳細資訊,請參閱 設定 KV 快取和智慧型路由以提升效能

KV 快取的內建 L2 快取分層儲存支援

HyperPod 現在以現有的 KV 快取基礎設施為基礎,將分層儲存與 Redis 整合為額外的 L2 後端選項。使用內建的 SageMaker 受管分層儲存,可提升效能。此增強功能可為客戶提供更具可擴展性和效率的快取卸載選項,特別有利於高輸送量 LLM 推論工作負載。整合可維持與現有 vLLM 模型伺服器和路由功能的相容性,同時提供更好的效能。

注意

我們會收集特定例行操作指標,以提供必要的服務可用性。這些指標的建立是全自動化的,不涉及基礎模型推論工作負載的人工審核。這些指標與部署操作、資源管理和端點註冊相關。