Funzionalità supportate

Amazon SageMaker AI offre le seguenti quattro opzioni per implementare modelli per l'inferenza.

Inferenza in tempo reale per carichi di lavoro di inferenza con requisiti in tempo reale, interattivi e a bassa latenza.
Trasformazione in batch per inferenze offline con set di dati di grandi dimensioni.
Inferenza asincrona per l' near-real-timeinferenza con input di grandi dimensioni che richiedono tempi di preelaborazione più lunghi.
Inferenza senza server per carichi di lavoro di inferenza che presentano periodi di inattività tra picchi di traffico.

La tabella seguente riassume le funzionalità principali della piattaforma supportate da ciascuna opzione di inferenza. Non mostra le funzionalità che possono essere fornite da framework, container Docker personalizzati o tramite il concatenamento di diversi servizi AWS .

Funzionalità	Inferenza in tempo reale	Trasformazione in batch	Inferenza asincrona	Inferenza serverless	Container Docker
Supporto per il dimensionamento automatico	✓	N/D	✓	✓	N/D
Supporto per GPU	^{✓ 1}	^{✓ 1}	^{✓ 1}		1P, precostruito, BYOC
Modello singolo	✓	✓	✓	✓	N/D
Endpoint multi-modello	✓				^{K-nn, Linear Learner, RCF, Apache XGBoost, scikit-learn 2 TensorFlow MXNet PyTorch}
Endpoint multi-container	✓				1P, precostruito, Extend precostruito, BYOC
Pipeline di inferenza seriale	✓	✓			1P, precostruito, Extend precostruito, BYOC
Suggeritore di inferenza	✓				1P, precostruito, Extend precostruito, BYOC
Supporto per Collegamento privato	✓	✓	✓		N/D
Supporto capture/Model per il monitoraggio dei dati	✓	✓			N/D
DLCs supportato	1P, precostruito, Extend precostruito, BYOC	1P, precostruito, Extend precostruito, BYOC	1P, precostruito, Extend precostruito, BYOC	1P, precostruito, Extend precostruito, BYOC	N/D
Protocolli supportati	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)	N/D
Dimensione payload	< 6 MB	≤ 100 MB	≤ 1 GB	≤ 4 MB
Codifica HTTP a blocchi	Dipende dal framework, 1P non supportato	N/D	Dipende dal framework, 1P non supportato	Dipende dal framework, 1P non supportato	N/D
Timeout della richiesta	< 60 secondi	Giorni	< 1 ora	< 60 secondi	N/D
Barriere di distribuzione: implementazioni blue/green	✓	N/D	✓		N/D
Guardrail per l'implementazione: implementazioni in sequenza	✓	N/D	✓		N/D
Shadow testing	✓				N/D
Scalabilità a zero		N/D	✓	✓	N/D
Supporto per pacchetti modello Market Place	✓	✓	✓		N/D
Supporto cloud privato virtuale	✓	✓	✓		N/D
Supporto di più varianti di produzione	✓				N/D
Isolamento della rete	✓		✓		N/D
Supporto al servizio parallelo del modello	✓ ³	✓	✓ ³		✓ ³
Crittografia dei volumi	✓	✓	✓	✓	N/D
Cliente AWS KMS	✓	✓	✓	✓	N/D
Istanze d supportate	✓	✓	✓		N/D
supporto inf1	✓				✓

Con l' SageMaker intelligenza artificiale, puoi implementare uno o più modelli dietro un singolo endpoint di inferenza per l'inferenza in tempo reale. La tabella seguente riassume le funzionalità principali supportate dalle varie opzioni di hosting fornite con inferenza in tempo reale.

Funzionalità	Endpoint per modelli singoli	Endpoint multi-modello	Pipeline di inferenza seriale	Endpoint multi-container
Supporto per il dimensionamento automatico	✓	✓	✓	✓
Supporto per GPU	^{✓ 1}	✓	✓
Modello singolo	✓	✓	✓	✓
Endpoint multi-modello		✓	✓	N/D
Endpoint multi-container	✓			N/D
Pipeline di inferenza seriale	✓	✓	N/D
Suggeritore di inferenza	✓
Supporto per Collegamento privato	✓	✓	✓	✓
Supporto per il monitoraggio dei dati capture/Model	✓	N/D	N/D	N/D
DLCs supportato	1P, precostruito, Extend precostruito, BYOC	^{k-nn, Linear Learner XGBoost, RCF, MXNet Apache TensorFlow, scikit-learn 2 PyTorch}	1P, precostruito, Extend precostruito, BYOC	1P, precostruito, Extend precostruito, BYOC
Protocolli supportati	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)
Dimensione payload	< 6 MB	< 6 MB	< 6 MB	< 6 MB
Richiedi un timeout	< 60 secondi	< 60 secondi	< 60 secondi	< 60 secondi
Barriere di distribuzione: implementazioni blue/green	✓	✓	✓	✓
Guardrail per l'implementazione: implementazioni in sequenza	✓	✓	✓	✓
Shadow testing	✓
Supporto per pacchetti modello Market Place	✓
Supporto cloud privato virtuale	✓	✓	✓	✓
Supporto di più varianti di produzione	✓		✓	✓
Isolamento della rete	✓	✓	✓	✓
Supporto al servizio parallelo del modello	✓ ³		✓ ³
Crittografia dei volumi	✓	✓	✓	✓
Cliente AWS KMS	✓	✓	✓	✓
Istanze d supportate	✓	✓	✓	✓
supporto inf1	✓

¹ La disponibilità dei tipi di istanze Amazon EC2 dipende dalla AWS regione. Per la disponibilità di istanze specifiche AWS, consulta i prezzi di Amazon SageMaker AI.

² Per utilizzare qualsiasi altro framework o algoritmo, utilizza il toolkit SageMaker AI Inference per creare un contenitore che supporti endpoint multimodello.

³ Con l' SageMaker intelligenza artificiale, puoi implementare modelli di grandi dimensioni (fino a 500 GB) per l'inferenza. È possibile configurare il controllo dello stato del container e le quote di timeout per il download, fino a 60 minuti. Ciò ti consentirà di avere più tempo per scaricare e caricare il modello e le risorse associate. Per ulteriori informazioni, consulta Parametri degli endpoint di SageMaker AI per l’inferenza di modelli di grandi dimensioni. Puoi utilizzare contenitori di inferenza per modelli di grandi dimensioni compatibili con l' SageMaker intelligenza artificiale. Puoi anche utilizzare librerie di parallelizzazione dei modelli di terze parti, come Triton with and. FasterTransformer DeepSpeed Devi assicurarti che siano compatibili con l'intelligenza artificiale. SageMaker

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Aggiornamento dei container per NVIDIA Container Toolkit

Risorse