使用主控台設定模型自動擴展 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用主控台設定模型自動擴展

設定模型的自動擴展 (主控台)
  1. 開啟位在 https://console.aws.amazon.com/sagemaker/ 的 Amazon SageMaker AI 主控台。

  2. 在導覽窗格中,選擇推論,然後選擇端點

  3. 選擇您的端點,然後針對端點執行時期設定選擇變體。

  4. 選擇設定自動擴展

  5. 設定變體自動擴展頁面上,針對變體自動擴展,執行下列動作:

    1. 針對執行個體數量下限,輸入您希望擴展政策維持的執行個體數量下限。必須設定至少 1 個執行個體。

    2. 針對執行個體數量上限,輸入您希望擴展政策維持的執行個體數量上限。

  6. 請針對內建擴展政策,執行下列動作:

    1. 針對目標指標,系統會自動選取 SageMakerVariantInvocationsPerInstance 且無法變更。

    2. 針對目標值,輸入模型的每個執行個體每分鐘的平均調用數量。若要決定此值,請遵循 負載測試 中的準則。

    3. (選用) 針對縮減的冷卻期間 (秒)橫向擴充的冷卻時間 (秒),分別輸入每個冷卻時間的秒數。

    4. (選用) 若不想在流量減少時讓自動擴展終止執行個體,請選取停用縮減

  7. 選擇儲存

此程序會向 Application Auto Scaling 登錄模型,將變體作為可擴展的目標。當您登錄模型時,Application Auto Scaling 會進行驗證檢查,以確定符合下列條件:

  • 模型已存在

  • 權限足夠

  • 變體的執行個體如果是具有爆量效能執行個體 (例如 T2),則您不能登錄此等變體

    注意

    對於像是 T2 等可爆量的執行個體,SageMaker AI 不支援其自動擴展功能,因為這類執行個體已可隨工作負載的增加來增加容量。如需爆量效能執行個體的資訊,請參閱 Amazon EC2 執行個體類型