本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker AI 和 Application Auto Scaling
您可以使用目標追蹤擴展政策、步進擴展政策和排程擴展,來擴展 SageMaker AI 端點變體、無伺服器端點的佈建並行,以及推論元件。
使用以下資訊來協助您整合 SageMaker AI 與 Application Auto Scaling。
為 SageMaker AI 建立的服務連結角色
將 SageMaker AI 資源註冊為 Application Auto Scaling 可擴展的目標 AWS 帳戶 時,系統會自動在 中建立下列服務連結角色。此角色可讓 Application Auto Scaling 在您的帳戶內執行支援的操作。如需詳細資訊,請參閱Application Auto Scaling 的服務連結角色。
-
AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint
服務連結角色所使用的服務委託人
上一節中的服務連結角色,只能由依據角色定義的信任關係所授權的服務委託人來擔任。Application Auto Scaling 使用的服務連結角色會將存取權授予下列服務委託人:
-
sagemaker.application-autoscaling.amazonaws.com
使用 Application Auto Scaling 將 SageMaker AI 端點變體註冊為可擴展的目標
Application Auto Scaling 需要可擴展的目標,才能為 SageMaker AI 模型 (變體) 建立擴展政策或排程動作。可擴展的目標是 Application Auto Scaling 可水平擴展和縮減的資源。可擴展的目標是由資源 ID、可擴展的維度和命名空間的組合來唯一識別。
如果您使用 SageMaker AI 主控台設定自動擴展,則 SageMaker AI 會自動為您註冊可擴展的目標。
如果您想要使用 CLI 或其中一個 AWS SDKs AWS 設定自動擴展,您可以使用下列選項:
-
AWS CLI:
為產品變體呼叫 register-scalable-target
命令。以下範例會為 my-endpoint
端點上執行名為my-variant
的產品變體註冊所需的執行個體計數,容量下限為 1 個執行個體,容量上限為 8 個執行個體。aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity8
如果成功,此命令會傳回可擴展目標的 ARN。
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS 開發套件:
呼叫 RegisterScalableTarget 操作,並提供
ResourceId
、ScalableDimension
、ServiceNamespace
、MinCapacity
及MaxCapacity
作為參數。
向 Application Auto Scaling 將無伺服器端點的佈建並行註冊為可擴展的目標
Application Auto Scaling 還需要先有可擴展的目標,您才能為無伺服器端點的佈建並行建立擴展政策或排定的動作。
如果您使用 SageMaker AI 主控台設定自動擴展,則 SageMaker AI 會自動為您註冊可擴展的目標。
否則,使用下列其中一種方法來註冊可擴展的目標:
-
AWS CLI:
為產品變體呼叫 register-scalable-target
命令。以下範例會為 my-endpoint
端點上執行名為my-variant
的產品變體註冊佈建並行,容量下限為一,容量上限為十。aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity10
如果成功,此命令會傳回可擴展目標的 ARN。
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS 開發套件:
呼叫 RegisterScalableTarget 操作,並提供
ResourceId
、ScalableDimension
、ServiceNamespace
、MinCapacity
及MaxCapacity
作為參數。
在 Application Auto Scaling 中將推論元件註冊為可擴展的目標
Application Auto Scaling 需要先有可擴展的目標,您才能為推論元件建立擴展政策或排定的動作。
-
AWS CLI:
為推論元件呼叫 register-scalable-target
命令。下列範例會替名為的推論元件註冊所需的複本計數量 my-inference-component
,容量下限為 0,上限為 3。aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/
my-inference-component
\ --min-capacity0
\ --max-capacity3
如果成功,此命令會傳回可擴展目標的 ARN。
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS 開發套件:
呼叫 RegisterScalableTarget 操作,並提供
ResourceId
、ScalableDimension
、ServiceNamespace
、MinCapacity
及MaxCapacity
作為參數。
相關資源
如果您才剛開始使用 Application Auto Scaling,您可以在 Amazon SageMaker AI 開發人員指南中找到有關擴展 SageMaker AI 資源的其他實用資訊: Amazon SageMaker
注意
在 2023 年,SageMaker AI 推出了以即時推論端點為基礎的新推論功能。您可以使用端點組態來建立 SageMaker AI 端點,該組態會定義端點的執行個體類型和初始執行個體計數。然後,建立推論元件,這是 SageMaker AI 託管物件,可用來將模型部署到端點。如需有關擴展推論元件的資訊,請參閱 AWS 部落格上的 Amazon SageMaker AI 新增了新的推論功能,以協助降低基礎模型部署成本和延遲