本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon SageMaker HyperPod 上部署模型
<a name="sagemaker-hyperpod-model-deployment"></a>

Amazon SageMaker HyperPod 現在延伸到訓練之外，以提供全面的推論平台，將 Kubernetes 的靈活性與 AWS 受管服務的卓越營運相結合。在整個模型生命週期中使用相同的 HyperPod 運算，以企業級可靠性部署、擴展和最佳化機器學習模型。

Amazon SageMaker HyperPod 提供靈活的部署介面，可讓您透過多種方法部署模型，包括 kubectl、Python SDK、Amazon SageMaker Studio UI 或 HyperPod CLI。此服務提供進階的自動擴展功能，搭配動態資源配置，可根據需求自動調整。此外，它還包含全面的可觀測性和監控功能，這些功能會追蹤關鍵指標，例如 time-to-first-token、延遲和 GPU 使用率，以協助您最佳化效能。

**注意**  
在啟用 GPU 的執行個體上部署時，您可以使用 GPU 分割搭配多執行個體 GPU (MIG) 技術，在單一 GPU 上執行多個推論工作負載。這可提高 GPU 使用率和成本最佳化。如需設定 GPU 分割的詳細資訊，請參閱 [在 Amazon SageMaker HyperPod 中使用 GPU 分割區](sagemaker-hyperpod-eks-gpu-partitioning.md)。

**用於訓練和推論的統一基礎設施**

透過在訓練與推論工作負載之間無縫轉換運算資源，將 GPU 使用率最大化。這可降低總擁有成本，同時維持營運持續性。

**企業備妥部署選項**

從多個來源部署模型，包括來自 Amazon SageMaker JumpStart 的開放權重和門控模型，以及來自 Amazon S3 和 Amazon FSx 的自訂模型，同時支援單節點和多節點推論架構。

**受管分層金鑰值 (KV) 快取和智慧型路由**

KV 快取會在處理先前的權杖後儲存預先計算的鍵值向量。處理下一個字符時，不需要重新計算向量。透過雙層快取架構，您可以設定使用 CPU 記憶體進行低延遲本機重複使用的 L1 快取，以及利用 Redis 啟用可擴展節點層級快取共用的 L2 快取。

智慧路由會分析傳入的請求，並將其導向至最有可能具有相關快取金鑰/值對的推論執行個體。系統會檢查請求，然後根據下列其中一個路由策略進行路由：

1. `prefixaware` — 具有相同提示字首的後續請求會路由至相同的執行個體

1. `kvaware` — 傳入的請求會路由至 KV 快取命中率最高的執行個體。

1. `session` — 來自相同使用者工作階段的請求會路由至相同的執行個體。

1. `roundrobin` — 即使在未考慮 KV 快取狀態的情況下，也會發佈請求。

如需如何啟用此功能的詳細資訊，請參閱 [設定 KV 快取和智慧型路由以提升效能](sagemaker-hyperpod-model-deployment-deploy-ftm.md#sagemaker-hyperpod-model-deployment-deploy-ftm-cache-route)。

**KV 快取的內建 L2 快取分層儲存支援**

HyperPod 現在以現有的 KV 快取基礎設施為基礎，將分層儲存與 Redis 整合為額外的 L2 後端選項。使用內建的 SageMaker 受管分層儲存，可提升效能。此增強功能可為客戶提供更具可擴展性和效率的快取卸載選項，特別有利於高輸送量 LLM 推論工作負載。整合可維持與現有 vLLM 模型伺服器和路由功能的相容性，同時提供更好的效能。

**注意**  
**資料加密：**KV 快取資料 （注意力金鑰和值） 會靜態儲存未加密，以最佳化推論延遲並改善效能。對於具有嚴格encryption-at-rest需求的工作負載，請考慮對提示和回應進行應用程式層加密，或停用快取。  
**資料隔離：**使用受管分層儲存做為 L2 快取後端時，叢集中的多個推論部署會共用快取儲存，而無隔離。來自不同部署的 L2 KV 快取資料 （注意金鑰和值） 不會分開。對於需要資料隔離的工作負載 （多租戶案例、不同的資料分類層級），請部署至個別叢集或使用專用 Redis 執行個體。

**具有自動容錯移轉的多執行個體類型部署**

HyperPod Inference 支援多執行個體類型部署，以改善部署可靠性和資源使用率。在部署組態中指定執行個體類型的優先順序清單，當您偏好的執行個體類型缺乏容量時，系統會自動從可用的替代方案中選取。Kubernetes 排程器使用`preferredDuringSchedulingIgnoredDuringExecution`節點親和性來按優先順序評估執行個體類型，將工作負載放置在最高優先順序的可用執行個體類型上，同時確保即使偏好的資源無法使用，也能進行部署。此功能可防止由於容量限制而導致部署失敗，同時維持您的成本和效能偏好設定，即使在叢集容量波動期間，也能確保持續的服務可用性。

**用於精細排程控制的自訂節點親和性**

HyperPod Inference 支援自訂節點親和性，以控制執行個體類型選擇以外的工作負載置放。透過 `nodeAffinity` 欄位指定節點選擇條件，例如可用區域分佈、容量類型篩選 （隨需與 Spot) 或自訂節點標籤。系統透過 支援使用 `requiredDuringSchedulingIgnoredDuringExecution`和選用偏好設定的強制性置放限制`preferredDuringSchedulingIgnoredDuringExecution`，提供 Pod 排程決策的完整控制權，同時維持部署彈性。

**注意**  
我們會收集特定例行操作指標，以提供必要的服務可用性。這些指標的建立是完全自動化的，不涉及人工檢閱基礎模型推論工作負載。這些指標與部署操作、資源管理和端點註冊相關。

**Topics**
+ [設定 HyperPod 叢集以進行模型部署](sagemaker-hyperpod-model-deployment-setup.md)
+ [部署基礎模型和自訂微調模型](sagemaker-hyperpod-model-deployment-deploy.md)
+ [用於 HyperPod 推論模型部署的自動擴展政策](sagemaker-hyperpod-model-deployment-autoscaling.md)
+ [在 HyperPod 叢集上實作推論可觀測性](sagemaker-hyperpod-model-deployment-observability.md)
+ [HyperPod 上模型部署的任務治理](sagemaker-hyperpod-model-deployment-task-gov.md)
+ [HyperPod 推論故障診斷](sagemaker-hyperpod-model-deployment-ts.md)
+ [Amazon SageMaker HyperPod 推論版本備註](sagemaker-hyperpod-inference-release-notes.md)