本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon SageMaker HyperPod 上部署模型
Amazon SageMaker HyperPod 現在延伸到訓練之外,以提供全面的推論平台,將 Kubernetes 的靈活性與 AWS 受管服務的卓越營運相結合。在整個模型生命週期中使用相同的 HyperPod 運算,以企業級可靠性部署、擴展和最佳化機器學習模型。
Amazon SageMaker HyperPod 提供靈活的部署介面,可讓您透過多種方法部署模型,包括 kubectl、Python SDK、Amazon SageMaker Studio UI 或 HyperPod CLI。此服務提供進階的自動擴展功能,搭配動態資源配置,可根據需求自動調整。此外,它還包含全面的可觀測性和監控功能,這些功能會追蹤關鍵指標,例如 time-to-first-token、延遲和 GPU 使用率,以協助您最佳化效能。
注意
在啟用 GPU 的執行個體上部署時,您可以使用 GPU 分割搭配多執行個體 GPU (MIG) 技術,在單一 GPU 上執行多個推論工作負載。這可提高 GPU 使用率和成本最佳化。如需設定 GPU 分割的詳細資訊,請參閱 在 Amazon SageMaker HyperPod 中使用 GPU 分割區。
用於訓練和推論的統一基礎設施
透過在訓練與推論工作負載之間無縫轉換運算資源,將 GPU 使用率最大化。這可降低總擁有成本,同時維持營運持續性。
企業備妥部署選項
從多個來源部署模型,包括來自 Amazon SageMaker JumpStart 的開放權重和門控模型,以及來自 Amazon S3 和 Amazon FSx 的自訂模型,同時支援單節點和多節點推論架構。
受管分層金鑰值 (KV) 快取和智慧型路由
KV 快取會在處理先前的權杖後儲存預先計算的鍵值向量。處理下一個字符時,不需要重新計算向量。透過雙層快取架構,您可以設定使用 CPU 記憶體進行低延遲本機重複使用的 L1 快取,以及利用 Redis 啟用可擴展節點層級快取共用的 L2 快取。
智慧型路由會分析傳入的請求,並將其導向至最有可能具有相關快取金鑰值對的推論執行個體。系統會檢查請求,然後根據下列其中一個路由策略進行路由:
prefixaware— 具有相同提示字首的後續請求會路由到相同的執行個體kvaware— 傳入的請求會路由至 KV 快取命中率最高的執行個體。session— 來自相同使用者工作階段的請求會路由至相同的執行個體。roundrobin— 即使在未考慮 KV 快取狀態的情況下,也會發佈請求。
如需如何啟用此功能的詳細資訊,請參閱 設定 KV 快取和智慧型路由以提升效能。
KV 快取的內建 L2 快取分層儲存支援
HyperPod 現在以現有的 KV 快取基礎設施為基礎,將分層儲存與 Redis 整合為額外的 L2 後端選項。使用內建的 SageMaker 受管分層儲存,可提升效能。此增強功能可為客戶提供更具可擴展性和效率的快取卸載選項,特別有利於高輸送量 LLM 推論工作負載。整合可維持與現有 vLLM 模型伺服器和路由功能的相容性,同時提供更好的效能。
注意
我們會收集特定例行操作指標,以提供必要的服務可用性。這些指標的建立是全自動化的,不涉及基礎模型推論工作負載的人工審核。這些指標與部署操作、資源管理和端點註冊相關。