本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon SageMaker HyperPod 上部署模型
Amazon SageMaker HyperPod 現在延伸到訓練之外,以提供全面的推論平台,將 Kubernetes 的靈活性與 AWS 受管服務的卓越營運相結合。在整個模型生命週期中使用相同的 HyperPod 運算,以企業級可靠性部署、擴展和最佳化機器學習模型。
Amazon SageMaker HyperPod 提供靈活的部署介面,可讓您透過多種方法部署模型,包括 kubectl、Python SDK、Amazon SageMaker Studio UI 或 HyperPod CLI。此服務提供進階的自動擴展功能,搭配動態資源配置,可根據需求自動調整。此外,它還包含全面的可觀測性和監控功能,這些功能會追蹤關鍵指標,例如 time-to-first-token、延遲和 GPU 使用率,以協助您最佳化效能。
注意
在啟用 GPU 的執行個體上部署時,您可以使用 GPU 分割搭配多執行個體 GPU (MIG) 技術,在單一 GPU 上執行多個推論工作負載。這可提高 GPU 使用率和成本最佳化。如需設定 GPU 分割的詳細資訊,請參閱 在 Amazon SageMaker HyperPod 中使用 GPU 分割區。
用於訓練和推論的統一基礎設施
透過在訓練與推論工作負載之間無縫轉換運算資源,將 GPU 使用率最大化。這可降低總擁有成本,同時維持營運持續性。
企業備妥部署選項
從多個來源部署模型,包括來自 Amazon SageMaker JumpStart 的開放權重和門控模型,以及來自 Amazon S3 和 Amazon FSx 的自訂模型,同時支援單節點和多節點推論架構。
受管分層金鑰值 (KV) 快取和智慧型路由
KV 快取會在處理先前的權杖後儲存預先計算的鍵值向量。處理下一個字符時,不需要重新計算向量。透過雙層快取架構,您可以設定使用 CPU 記憶體進行低延遲本機重複使用的 L1 快取,以及利用 Redis 啟用可擴展節點層級快取共用的 L2 快取。
智慧路由會分析傳入的請求,並將其導向至最有可能具有相關快取金鑰/值對的推論執行個體。系統會檢查請求,然後根據下列其中一個路由策略進行路由:
prefixaware— 具有相同提示字首的後續請求會路由至相同的執行個體kvaware— 傳入的請求會路由至 KV 快取命中率最高的執行個體。session— 來自相同使用者工作階段的請求會路由至相同的執行個體。roundrobin— 即使在未考慮 KV 快取狀態的情況下,也會發佈請求。
如需如何啟用此功能的詳細資訊,請參閱 設定 KV 快取和智慧型路由以提升效能。
KV 快取的內建 L2 快取分層儲存支援
HyperPod 現在以現有的 KV 快取基礎設施為基礎,將分層儲存與 Redis 整合為額外的 L2 後端選項。使用內建的 SageMaker 受管分層儲存,可提升效能。此增強功能可為客戶提供更具可擴展性和效率的快取卸載選項,特別有利於高輸送量 LLM 推論工作負載。整合可維持與現有 vLLM 模型伺服器和路由功能的相容性,同時提供更好的效能。
注意
資料加密:KV 快取資料 (注意力金鑰和值) 會靜態儲存未加密,以最佳化推論延遲並改善效能。對於具有嚴格encryption-at-rest需求的工作負載,請考慮對提示和回應進行應用程式層加密,或停用快取。
資料隔離:使用受管分層儲存做為 L2 快取後端時,叢集中的多個推論部署會共用快取儲存,而無隔離。來自不同部署的 L2 KV 快取資料 (注意金鑰和值) 不會分開。對於需要資料隔離的工作負載 (多租戶案例、不同的資料分類層級),請部署至個別叢集或使用專用 Redis 執行個體。
具有自動容錯移轉的多執行個體類型部署
HyperPod Inference 支援多執行個體類型部署,以改善部署可靠性和資源使用率。在部署組態中指定執行個體類型的優先順序清單,當您偏好的執行個體類型缺乏容量時,系統會自動從可用的替代方案中選取。Kubernetes 排程器使用preferredDuringSchedulingIgnoredDuringExecution節點親和性來按優先順序評估執行個體類型,將工作負載放置在最高優先順序的可用執行個體類型上,同時確保即使偏好的資源無法使用,也能進行部署。此功能可防止由於容量限制而導致部署失敗,同時維持您的成本和效能偏好設定,即使在叢集容量波動期間,也能確保持續的服務可用性。
用於精細排程控制的自訂節點親和性
HyperPod Inference 支援自訂節點親和性,以控制執行個體類型選擇以外的工作負載置放。透過 nodeAffinity 欄位指定節點選擇條件,例如可用區域分佈、容量類型篩選 (隨需與 Spot) 或自訂節點標籤。系統透過 支援使用 requiredDuringSchedulingIgnoredDuringExecution和選用偏好設定的強制性置放限制preferredDuringSchedulingIgnoredDuringExecution,提供 Pod 排程決策的完整控制權,同時維持部署彈性。
注意
我們會收集特定例行操作指標,以提供必要的服務可用性。這些指標的建立是完全自動化的,不涉及人工檢閱基礎模型推論工作負載。這些指標與部署操作、資源管理和端點註冊相關。