本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 最佳化生成式 AI 推論建議
<a name="generative-ai-inference-recommendations"></a>

Amazon SageMaker AI 現在支援推論建議，這項功能可消除手動最佳化和基準測試，以提供最佳的推論效能。除了手動測試 GPU 執行個體類型的組合、提供容器、平行處理策略和最佳化技術之外，您還可以提供模型和工作負載需求，而 SageMaker AI 會傳回已驗證且可供部署使用的組態，並具有實際效能指標。

推論建議會分析模型的架構、縮小組態空間，並套用符合目標的最佳化，例如推測解碼輸送量和核心調校延遲。透過評估多個執行個體類型，您可以為工作負載選取最符合價格的選項。它會對真實 GPU 基礎設施上的每個組態進行基準測試，因此您可以放心地部署並調整推論支出的大小。

## 運作方式
<a name="generative-ai-inference-recommendations-how-it-works"></a>

無論是透過 SageMaker AI Studio 還是 SageMaker AI APIs，推論建議的入門都很簡單。下列步驟說明工作流程。

1. **準備您的模型。**指向 Amazon S3 或 SageMaker AI 模型登錄檔中的模型成品。推論建議支援具有 SafeTensor 權重的 HuggingFace 檢查點格式，包括基本模型和自訂或微調模型。

1. **定義您的工作負載。**描述您的預期流量模式，包括輸入和輸出字符分佈和並行層級。您可以從 Amazon S3 使用內嵌規格或代表性資料集。

1. **設定您的目標。**選擇單一效能目標：最佳化成本、將延遲降至最低，或將輸送量最大化。最多選取要比較的三種執行個體類型。

1. **檢閱結果。**SageMaker AI 會傳回已驗證的組態，其中包含實際效能指標：首次使用權杖的時間 (TTFT)、金鑰間延遲、P50/P90/P99 的請求延遲、輸送量和每個組態的成本。每個組態都可以部署。

1. **部署。**使用來自 SageMaker AI Studio 的單一動作，或透過 API 以程式設計方式將所選組態部署至 SageMaker AI 推論端點。

您也可以對現有的生產端點進行基準測試，以驗證目前的效能或與新組態進行比較。

## 使用案例
<a name="generative-ai-inference-recommendations-use-cases"></a>

以下是推論建議的常見使用案例。
+ **部署前驗證。**在承諾生產部署之前，最佳化和基準化新模型。在投資擴展模型之前，驗證模型的執行方式。
+ **更新後的迴歸測試。**驗證容器更新、架構升級或提供程式庫版本之後的效能。在推送至生產環境之前，請確認您的組態仍處於最佳狀態。
+ **條件變更時的正確大小。**當流量模式轉移或新的執行個體類型可用時，請以小時為單位重新執行推論建議，而不是重新啟動長達數週的手動程序。
+ **模型比較。**比較不同執行個體類型模型變體的效能和成本，以便在生產部署之前進行明智的選擇。
+ **成本最佳化。**為現有生產端點建立基準，以識別過度佈建的基礎設施。使用結果來調整大小並減少經常性推論支出。

## 定價
<a name="generative-ai-inference-recommendations-pricing"></a>

推論建議不收取額外的服務費用。您可以使用現有的 ML 預留 （彈性訓練計劃），無需額外的運算成本，或使用自動佈建的隨需運算。

## 支援的區域
<a name="generative-ai-inference-recommendations-regions"></a>

推論建議可在下列 AWS 區域取得：
+ 美國東部 (維吉尼亞北部)
+ 美國東部 (俄亥俄)
+ 美國西部 (奧勒岡)
+ 亞太地區 (新加坡)
+ 亞太地區 (東京)
+ 歐洲 (法蘭克福)
+ 歐洲 (愛爾蘭)