部署用於推論的模型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

部署用於推論的模型

透過 Amazon SageMaker AI,您可以從訓練過的機器學習模型開始取得預測或推論。SageMaker AI 提供廣泛的機器學習 (ML) 基礎架構和模型部署選項,有助於滿足您所有的機器學習推論需求。使用 SageMaker AI 推論,您可以擴展模型部署、更有效地在生產環境中管理模型,並減少營運負擔。SageMaker AI 為您提供各種推論選項,例如取得低延遲推論的即時端點、全受管基礎結構和自動擴展的無伺服器端點,以及批次請求的非同步端點。透過為您的使用案例利用適當的推論選項,您可以確保高效的模型部署和推論。

選擇功能

使用 SageMaker AI 部署 ML 模型有數種使用案例。本節說明這些使用案例,以及針對每個使用案例的建議 SageMaker AI 功能。

使用案例

以下是使用 SageMaker AI 部署 ML 模型的主要使用案例。

  • 使用案例 1:在低程式碼或無程式碼環境中部署機器學習模型。對於初學者或 SageMaker AI 的新手,您可以透過 Amazon SageMaker Studio 介面使用 Amazon SageMaker JumpStart 部署預先訓練的模型,而不需要複雜的組態。

  • 使用案例 2:使用程式碼來開發更具彈性和控制度的機器學習模型。經驗豐富的 ML 從業人員可以使用 SageMaker AI Python SDK 中的 ModelBuilder 類別,根據其應用程式需求使用自訂設定部署自己的模型,該開發套件可對各種設定進行精細控制,例如執行個體類型、網路隔離和資源配置。

  • 使用案例 3:大規模部署機器學習模型。對於想要大規模管理生產環境中模型的進階使用者和組織,請使用 適用於 Python (Boto3) 的 AWS SDK和 CloudFormation以及您想要的基礎設施即程式碼 (IaC) 和 CI/CD 工具,以佈建資源並自動化資源管理。

下表說明與每個使用案例對應的 SageMaker AI 功能重要考量事項和利弊得失。

使用案例 1 使用案例 2 使用案例 3
SageMaker AI 功能 使用 JumpStart in Studio 加速基礎模型部署。 使用 SageMaker Python SDK 中的 ModelBuilder 部署模型。 使用 大規模部署和管理模型CloudFormation
Description 使用 Studio UI 將預先訓練的模型從目錄部署到預先設定的推論端點。此選項非常適合公民資料科學家,或想要部署模型而不設定複雜設定的任何人。 使用 Amazon SageMaker AI Python SDK 中的 ModelBuilder 類別來部署您自己的模型並設定部署設定。此選項非常適合經驗豐富的資料科學家,或擁有自己的模型來部署和需要精細控制的任何人員。 使用 CloudFormation和 Infrastructure as Code (IaC) 進行程式設計控制和自動化,以部署和管理 SageMaker AI 模型。此選項非常適合需要一致且可重複部署的進階使用者。
最佳化 快速且精簡地部署熱門開放原始碼模型 部署您自己的模型 持續管理生產環境中的模型
考量事項 缺乏針對容器設定和特定應用程式需求加以自訂 沒有 UI,需要您熟悉開發和維護 Python 程式碼 需要基礎設施管理和組織資源,也需要熟悉 適用於 Python (Boto3) 的 AWS SDK或 CloudFormation範本。
建議的環境 SageMaker AI 網域 以您的 AWS 憑證和已安裝的 SageMaker Python SDK 設定的 Python 開發環境,或 SageMaker AI IDE,例如 SageMaker JupyterLab AWS CLI、本機開發環境,以及基礎設施即程式碼 (IaC) 和 CI/CD 工具

其他選項

SageMaker AI 為您的推論使用案例提供不同的選項,可供您選擇部署的技術廣度和深度:

  • 將模型部署至端點。部署模型時,請考慮下列選項:

    • 即時推論。即時推論非常適合您具有互動、低延遲需求的推論工作負載。

    • 使用 Amazon SageMaker 無伺服器推論來部署模型。使用無伺服器推論來部署模型,而無需設定或管理任何基礎基礎結構。此選項非常適合在流量陡增之間有閒置期間且可以容忍冷啟動的工作負載。

    • 非同步推論。將傳入的請求排入佇列並以非同步方式處理。此選項適用於具有承載大小較大 (最大不超過 1GB)、處理時間計時較長 (最多不超過一小時) 以及接近即時延遲需求的請求。

  • 成本最佳化。若要最佳化您的推論成本,請考慮下列選項:

    • 使用 SageMaker Neo 最佳化模型效能。 使用 SageMaker Neo 以更好的效能和效率最佳化和執行機器學習模型,透過自動最佳化模型以在 AWSInferentia 晶片等環境中執行,協助您將運算成本降至最低。

    • Amazon SageMaker AI 模型的自動擴展。使用自動擴展功能,以根據傳入流量模式動態調整端點的運算資源,這可讓您僅支付在指定時間使用的資源,來協助您最佳化成本。