本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon SageMaker HyperPod 上部署模型
Amazon SageMaker HyperPod 現在超越訓練,提供全面的推論平台,將 Kubernetes 的靈活性與 AWS 受管服務的卓越營運結合在一起。在整個模型生命週期中使用相同的 HyperPod 運算,以企業級可靠性部署、擴展和最佳化機器學習模型。
Amazon SageMaker HyperPod 提供靈活的部署介面,可讓您透過多種方法部署模型,包括 kubectl、Python SDK、Amazon SageMaker Studio UI 或 HyperPod CLI。此服務提供進階的自動擴展功能,搭配動態資源配置,可根據需求自動調整。此外,它還包含全面的可觀測性和監控功能,這些功能會追蹤關鍵指標,例如 time-to-first-token、延遲和 GPU 使用率,以協助您最佳化效能。
注意
在啟用 GPU 的執行個體上部署時,您可以使用 GPU 分割搭配多執行個體 GPU (MIG) 技術,在單一 GPU 上執行多個推論工作負載。這可提高 GPU 使用率和成本最佳化。如需設定 GPU 分割的詳細資訊,請參閱 在 Amazon SageMaker HyperPod 中使用 GPU 分割區。
用於訓練和推論的統一基礎設施
透過在訓練與推論工作負載之間無縫轉換運算資源,將 GPU 使用率最大化。這可降低總擁有成本,同時維持營運持續性。
企業備妥部署選項
從多個來源部署模型,包括來自 Amazon SageMaker JumpStart 的開放權重和門控模型,以及來自 Amazon S3 和 Amazon FSx 的自訂模型,同時支援單節點和多節點推論架構。
受管分層金鑰值 (KV) 快取和智慧型路由
KV 快取會在處理先前的權杖後儲存預先計算的鍵值向量。處理下一個字符時,不需要重新計算向量。透過雙層快取架構,您可以設定使用 CPU 記憶體進行低延遲本機重複使用的 L1 快取,以及利用 Redis 啟用可擴展節點層級快取共用的 L2 快取。
智慧型路由會分析傳入的請求,並將其導向至最有可能具有相關快取金鑰/值對的推論執行個體。系統會檢查請求,然後根據下列其中一個路由策略進行路由:
prefixaware— 後續具有相同提示字首的請求會路由到相同的執行個體kvaware— 傳入的請求會路由至 KV 快取命中率最高的執行個體。session— 來自相同使用者工作階段的請求會路由至相同的執行個體。roundrobin— 即使在未考慮 KV 快取狀態的情況下,也會發佈請求。
如需如何啟用此功能的詳細資訊,請參閱 設定 KV 快取和智慧型路由以提升效能。
KV 快取的內建 L2 快取分層儲存支援
HyperPod 現在以現有的 KV 快取基礎設施為基礎,將分層儲存與 Redis 整合為額外的 L2 後端選項。使用內建的 SageMaker 受管分層儲存,這可改善效能。此增強功能可為客戶提供更具可擴展性和效率的快取卸載選項,特別有利於高輸送量 LLM 推論工作負載。整合可維持與現有 vLLM 模型伺服器和路由功能的相容性,同時提供更好的效能。
注意
資料加密:KV 快取資料 (注意力金鑰和值) 會靜態儲存未加密,以最佳化推論延遲並改善效能。對於具有嚴格encryption-at-rest需求的工作負載,請考慮提示和回應的應用程式層加密,或停用快取。
資料隔離:使用受管分層儲存做為 L2 快取後端時,叢集中的多個推論部署會共用快取儲存,而不會隔離。來自不同部署的 L2 KV 快取資料 (注意金鑰和值) 不會分開。對於需要資料隔離的工作負載 (多租戶案例、不同的資料分類層級),請部署至個別叢集或使用專用 Redis 執行個體。
具有自動容錯移轉的多執行個體類型部署
HyperPod Inference 支援多執行個體類型部署,以改善部署可靠性和資源使用率。在部署組態中指定執行個體類型的優先順序清單,當您偏好的執行個體類型缺乏容量時,系統會自動從可用的替代方案中選取。Kubernetes 排程器使用preferredDuringSchedulingIgnoredDuringExecution節點親和性來按優先順序評估執行個體類型,將工作負載放置在最高優先順序的可用執行個體類型上,同時確保即使偏好的資源無法使用,也能進行部署。此功能可防止因容量限制而導致部署失敗,同時維持您的成本和效能偏好設定,即使在叢集容量波動期間也能確保持續的服務可用性。
精細排程控制的自訂節點親和性
HyperPod 推論支援自訂節點親和性,以控制執行個體類型選擇以外的工作負載置放。透過 nodeAffinity 欄位指定節點選擇條件,例如可用區域分佈、容量類型篩選 (隨需與 Spot) 或自訂節點標籤。系統透過 支援使用 requiredDuringSchedulingIgnoredDuringExecution和選用偏好設定的強制性置放限制preferredDuringSchedulingIgnoredDuringExecution,提供 Pod 排程決策的完整控制權,同時維持部署彈性。
注意
我們會收集特定例行操作指標,以提供必要的服務可用性。這些指標的建立是完全自動化的,不涉及人工檢閱基礎模型推論工作負載。這些指標與部署操作、資源管理和端點註冊相關。