本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
多模型端點支援的演算法、架構和執行個體
如需資訊了解可搭配多模型端點使用的演算法、架構與執行個體類型,請參閱下列各節。
對於採用 CPU 支援執行個體的多模型端點,支援的演算法、架構與執行個體
下列演算法與架構的推論容器支援多模型端點:
若要使用任何其他架構或演算法,請使用 SageMaker AI 推論工具組來建置支援多模型端點的容器。如需相關資訊,請參閱 為 SageMaker AI 多模型端點建置您自己的容器。
多模型端點支援所有 CPU 執行個體類型。
對於採用 GPU 支援執行個體的多模型端點,支援的演算法、架構與執行個體
SageMaker AI Triton 推論伺服器支援在多模型端點上託管多個 GPU 支援模型。這支援所有主要的推論架構,如 NVIDIA® TensorRT™、PyTorch、MXNet、Python、ONNX、XGBoost、scikit-learn、RandomForest、 OpenVINO、自訂 C++ 等等。
若要採用任何其他架構或演算法,您可利用 Python 或 C ++ 的 Triton 後端編寫模型邏輯並為任何自訂模型提供服務。在伺服器準備就緒之後,您即可開始在單一端點後方部署數百個深度學習模型。
多模型端點支援下列 GPU 執行個體類型:
| 執行個體系列 | 執行個體類型 | vCPU | 每個 vCPU 的記憶體 GiB | GPU | 記憶體 | 
|---|---|---|---|---|---|
| p2 | ml.p2.xlarge | 4 | 15.25 | 1 | 12 | 
| p3 | ml.p3.2xlarge | 8 | 7.62 | 1 | 16 | 
| g5 | ml.g5.xlarge | 4 | 4 | 1 | 24 | 
| g5 | ml.g5.2xlarge | 8 | 4 | 1 | 24 | 
| g5 | ml.g5.4xlarge | 16 | 4 | 1 | 24 | 
| g5 | ml.g5.8xlarge | 32 | 4 | 1 | 24 | 
| g5 | ml.g5.16xlarge | 64 | 4 | 1 | 24 | 
| g4dn | ml.g4dn.xlarge | 4 | 4 | 1 | 16 | 
| g4dn | ml.g4dn.2xlarge | 8 | 4 | 1 | 16 | 
| g4dn | ml.g4dn.4xlarge | 16 | 4 | 1 | 16 | 
| g4dn | ml.g4dn.8xlarge | 32 | 4 | 1 | 16 | 
| g4dn | ml.g4dn.16xlarge | 64 | 4 | 1 | 16 |