

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 非同步推論
<a name="async-inference"></a>

Amazon SageMaker AI 非同步推論是 SageMaker AI 中的一種功能，可將傳入請求排入佇列並進行非同步處理。此選項適用於具有承載大小較大 (最大不超過 1GB)、處理時間計時較長 (最多不超過一小時) 以及接近即時延遲需求的請求。非同步推論可讓您在沒有要處理的請求時，將執行個體計數自動調整為零，藉此節省成本，因此您只需在端點正在處理請求時才支付費用。

## 運作方式
<a name="async-inference-how-it-works"></a>

建立一個非同步推論端點與建立即時推論端點類似。您可以使用現有的 SageMaker AI 模型，而且只需在使用 `CreateEndpointConfig` API 中的 `EndpointConfig` 欄位建立端點組態時指定 `AsyncInferenceConfig` 物件。下圖顯示非同步推論的架構和工作流程。

![非同步推論的架構圖顯示使用者調用端點的方式。](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/async-architecture.png)


若要調用端點，您需將請求承載放在 Amazon S3 中。您需在 `InvokeEndpointAsync` 請求中提供指向此承載的指標。調用時，SageMaker AI 會將請求排入佇列以進行處理，並傳回識別碼和輸出位置作為回應。處理過程中，SageMaker AI 會將結果放置在 Amazon S3 位置。您可以選擇性選擇使用 Amazon SNS 接收成功或錯誤通知。有關如何設置異步通知的詳細資訊，請參閱[檢查預測結果](async-inference-check-predictions.md)。

**注意**  
端點組態中存在非同步推論組態 (`AsyncInferenceConfig`) 物件，表示端點只能接收非同步調用。

## 我該如何開始？
<a name="async-inference-how-to-get-started"></a>

如果您是第一次使用 Amazon SageMaker 非同步推論，建議您完成以下事項：
+ 已閱讀 [非同步端點操作](async-inference-create-invoke-update-delete.md)，瞭解有關如何建立、調用、更新和刪除異步終端節點的資訊。
+ 探索 [aws/amazon-sagemaker-examples](https://github.com/aws/amazon-sagemaker-examples) 之 GitHub 儲存庫中的[非同步推論範例筆記本](https://github.com/aws/amazon-sagemaker-examples/blob/main/async-inference/Async-Inference-Walkthrough.ipynb)。

請注意，如果您的端點使用此[Exclusions](deployment-guardrails-exclusions.md)頁面中列出的任何功能，則無法使用非同步推論。