Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da CPU Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da GPU

Algoritmi, framework e istanze supportati per endpoint multi-modello

Per informazioni sugli algoritmi, i framework e i tipi di istanza che è possibile utilizzare con gli endpoint a più modelli, consulta le sezioni seguenti.

Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da CPU

I container di inferenza per i seguenti algoritmi e framework supportano endpoint a più modelli:

Per utilizzare qualsiasi altro framework o algoritmo, utilizza il toolkit di inferenza SageMaker AI per creare un contenitore che supporti endpoint multimodello. Per informazioni, consulta Crea il tuo contenitore per gli endpoint multimodello di intelligenza artificiale SageMaker.

Gli endpoint a più modelli supportano tutti i tipi di istanze CPU.

Algoritmi, framework e istanze supportati per endpoint a più modelli che utilizzano istanze supportate da GPU

L'hosting di più modelli basati su GPU su endpoint multimodello è supportato tramite il server AI Triton Inference. SageMaker Questo supporta tutti i principali framework di inferenza come NVIDIA® TensorRT™, Python, XGBoost ONNX, MXNet scikit-learn PyTorch, OpenVINO, C++ personalizzato e altri. RandomForest

Per utilizzare qualsiasi altro framework o algoritmo, puoi usare il back-end Triton per Python o C++ per scrivere la logica del modello e servire qualsiasi modello personalizzato. Dopo aver preparato il server, puoi iniziare a implementare centinaia di modelli di Deep Learning dietro un unico endpoint.

Gli endpoint a più modelli supportano i seguenti tipi di istanze GPU:

Famiglia di istanze	Tipo di istanza	v CPUs	GiB di memoria per vCPU	GPUs	Memoria GPU
p2	ml.p2.xlarge	4	15,25	1	12
p3	ml.p3.2xlarge	8	7,62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g 5.2xlarg	8	4	1	24
g5	ml.g 5,4xlarge	16	4	1	24
g5	ml.g 5,8xlarge	32	4	1	24
g5	ml.g 5,16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Endpoint multi-modello

Raccomandazioni sulle istanze per le distribuzioni di endpoint a più modelli