本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
非同步推論
Amazon SageMaker AI 非同步推論是 SageMaker AI 中的一種功能,可將傳入請求排入佇列並進行非同步處理。此選項適用於具有承載大小較大 (最大不超過 1GB)、處理時間計時較長 (最多不超過一小時) 以及接近即時延遲需求的請求。非同步推論可讓您在沒有要處理的請求時,將執行個體計數自動調整為零,藉此節省成本,因此您只需在端點正在處理請求時才支付費用。
運作方式
建立一個非同步推論端點與建立即時推論端點類似。您可以使用現有的 SageMaker AI 模型,而且只需在使用 CreateEndpointConfig API 中的 EndpointConfig 欄位建立端點組態時指定 AsyncInferenceConfig 物件。下圖顯示非同步推論的架構和工作流程。
若要調用端點,您需將請求承載放在 Amazon S3 中。您需在 InvokeEndpointAsync 請求中提供指向此承載的指標。調用時,SageMaker AI 會將請求排入佇列以進行處理,並傳回識別碼和輸出位置作為回應。處理過程中,SageMaker AI 會將結果放置在 Amazon S3 位置。您可以選擇性選擇使用 Amazon SNS 接收成功或錯誤通知。有關如何設置異步通知的詳細資訊,請參閱檢查預測結果。
注意
端點組態中存在非同步推論組態 (AsyncInferenceConfig) 物件,表示端點只能接收非同步調用。
我該如何開始?
如果您是第一次使用 Amazon SageMaker 非同步推論,建議您完成以下事項:
-
已閱讀 非同步端點操作,瞭解有關如何建立、調用、更新和刪除異步終端節點的資訊。
-
探索 aws/amazon-sagemaker-examples
之 GitHub 儲存庫中的非同步推論範例筆記本 。
請注意,如果您的端點使用此Exclusions頁面中列出的任何功能,則無法使用非同步推論。