選取影像分類模型的部署基礎設施

我們建議您考慮三個主要層面，為影像分類端點選擇最佳部署選項：

所需的端點回應時間
解決方案複雜性和可用的人力資源
成本限制

端點回應時間和成本限制較容易量化，且最好先判斷。解決方案的複雜性限制取決於平衡員工的時間和資源。最不複雜的解決方案涉及使用 Amazon Rekognition 或 Amazon Rekognition 自訂標籤。大型電腦視覺模型放置在 Amazon API Gateway 執行個體和 AWS Lambda 函數後方時，最多可能需要 1 秒才能回應。Amazon SageMaker AI Canvas 也可以部署在 1 秒內回應的端點，且開發工作量較低。

您可以使用 Docker 映像將映像分類模型放置在 AWS Lambda 函數中。呼叫 Lambda 函數時，可能會有冷啟動，因為模型載入時間而延遲端點回應。您也可以使用佈建並行選項，讓 Lambda 函數在 1 秒內回應指定的並行層級或根據自動擴展政策。

模型回應時間會根據模型處理時間和部署的端點回應時間而有所不同。以下是每個部署選項的回應時間，依實作努力整理：

最低工作量 – Amazon Rekognition、Amazon Rekognition 自訂標籤和 SageMaker AI Canvas 是最低工作量的部署選項。這些解決方案的回應時間可能少於一秒到數小時。
中等工作量 – SageMaker AI 是中等工作量的部署選項。 SageMaker AI 即時端點可以在不到一秒內回應， SageMaker AI 無伺服器推論單位可以在數秒內回應， SageMaker AI 批次轉換通常在數小時內回應。
最高工作量 – Amazon ECS或 Amazon EKS自訂端點和 AWS Lambda 函數是最高工作量的部署選項。這些自訂訓練任務的回應時間可能少於一秒到數小時。您可以為 Lambda 函數佈建少於一秒的回應時間。

最高努力的解決方案更有可能降低基礎設施成本。不過，請將節省的成本與工程師的維護時間的額外成本進行比較。

常見的部署模式是在端點呼叫前具有API閘道和 Lambda 函數，如下圖所示。在 Amazon Rekognition 的推論回應需要進一步處理，才能透過 Amazon API Gateway 傳回給呼叫用戶端時，這是比較理想的做法。

不過，處理相當繁重的情況可能需要不同的工作流程，以減少處理 Lambda 函數所造成的網路延遲懲罰。對於極低的延遲，可以省略 Lambda 函數，其成本為在API閘道呼叫API中強制 Amazon Rekognition。

對於可以容忍幾秒延遲的影像分類系統，請使用 SageMaker AI 無伺服器推論端點。對於 SageMaker AI 無伺服器推論和 AWS Lambda 部署，每次呼叫的執行時間都有 15 分鐘的限制。這是最熱門影像分類模型的最大安全界限。

對於離線映像分類或快速回應時間不重要的應用程式，您可以使用批次推論搭配 Amazon Rekognition。如需詳細資訊，請參閱 AWS Machine Learning部落格中的使用 Amazon Rekognition 自訂標籤進行批次映像處理。您也可以針對在 SageMaker AI Canvas 或其他方法中訓練的 SageMaker AI 模型使用 SageMaker AI 批次轉換。如需範例，請參閱上的SageMaker 批次推論筆記本的 AI PyTorch 批次轉換 GitHub。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

自訂訓練任務

自動化維護