使用主控台設定模型自動擴展

開啟位在 https://console.aws.amazon.com/sagemaker/ 的 Amazon SageMaker AI 主控台。
在導覽窗格中，選擇推論，然後選擇端點。
選擇您的端點，然後針對端點執行時期設定選擇變體。
選擇設定自動擴展。
在設定變體自動擴展頁面上，針對變體自動擴展，執行下列動作：
1. 針對執行個體數量下限，輸入您希望擴展政策維持的執行個體數量下限。必須設定至少 1 個執行個體。
2. 針對執行個體數量上限，輸入您希望擴展政策維持的執行個體數量上限。
請針對內建擴展政策，執行下列動作：
1. 針對目標指標，系統會自動選取 SageMakerVariantInvocationsPerInstance 且無法變更。
2. 針對目標值，輸入模型的每個執行個體每分鐘的平均調用數量。若要決定此值，請遵循負載測試中的準則。
3. (選用) 針對縮減的冷卻期間 (秒) 和橫向擴充的冷卻時間 (秒)，分別輸入每個冷卻時間的秒數。
4. (選用) 若不想在流量減少時讓自動擴展終止執行個體，請選取停用縮減。
選擇儲存。

此程序會向 Application Auto Scaling 登錄模型，將變體作為可擴展的目標。當您登錄模型時，Application Auto Scaling 會進行驗證檢查，以確定符合下列條件：

模型已存在
權限足夠
變體的執行個體如果是具有爆量效能執行個體 (例如 T2)，則您不能登錄此等變體

注意
對於像是 T2 等可爆量的執行個體，SageMaker AI 不支援其自動擴展功能，因為這類執行個體已可隨工作負載的增加來增加容量。如需爆量效能執行個體的資訊，請參閱 Amazon EC2 執行個體類型。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

先決條件

註冊模型