Fonctionnalités prises en charge

Amazon SageMaker AI propose les quatre options suivantes afin de déployer des modèles pour l’inférence.

Inférence en temps réel pour les charges de travail d'inférence avec exigences en temps réel, interactives et à faible latence.
Transformation par lots pour une inférence hors ligne avec de grands jeux de données.
Inférence asynchrone pour une inférence en temps quasi réel avec des entrées volumineuses nécessitant des temps de prétraitement plus longs.
Inférence sans serveur pour les charges de travail d'inférence qui ont des périodes d'inactivité entre les pics de trafic.

Le tableau suivant récapitule les principales fonctionnalités de plateforme prises en charge par chaque option d'inférence. Il n'affiche pas les fonctionnalités qui peuvent être fournies par des cadres, des conteneurs Docker personnalisés ou via le chaînage de différents services AWS.

Fonctionnalité	Inférence en temps réel	Transformation par lots	Inférence asynchrone	Inférence sans serveur	Conteneurs Docker
Prise en charge de la mise à l'échelle automatique	✓	N/A	✓	✓	N/A
Prise en charge GPU	✓¹	✓¹	✓¹		1P, préconçu, BYOC
Modèle unique	✓	✓	✓	✓	N/A
Point de terminaison multi-modèle	✓				k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn ²
Point de terminaison multi-conteneur	✓				1P, préconçu, Extend préconçu, BYOC
Pipeline d'inférence en série	✓	✓			1P, préconçu, Extend préconçu, BYOC
Inference Recommender	✓				1P, préconçu, Extend préconçu, BYOC
Prise en charge des liens privés	✓	✓	✓		N/A
Prise en charge de capture de données/Model Monitor	✓	✓			N/A
DLC pris en charge	1P, préconçu, Extend préconçu, BYOC	1P, préconçu, Extend préconçu, BYOC	1P, préconçu, Extend préconçu, BYOC	1P, préconçu, Extend préconçu, BYOC	N/A
Protocoles pris en charge	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)	N/A
Taille de la charge utile	< 6 Mo	≤ 100 Mo	≤ 1 Go	≤ 4 Mo
Encodage segmenté HTTP	Dépendant du cadre, 1P non pris en charge	N/A	Dépendant du cadre, 1P non pris en charge	Dépendant du cadre, 1P non pris en charge	N/A
Expiration de la demande	< 60 secondes	Jours	< 1 heure	< 60 secondes	N/A
Barrières de protection de déploiement : déploiements bleu/vert	✓	N/A	✓		N/A
Barrières de protection de déploiement : déploiements propagés	✓	N/A	✓		N/A
Tests shadow	✓				N/A
Mise à échelle jusqu'à zéro		N/A	✓	✓	N/A
Prise en charge des packages de modèles de marketplace	✓	✓			N/A
Prise en charge des clouds privés virtuels	✓	✓	✓		N/A
Prise en charge de plusieurs variantes de production	✓				N/A
Isolement de réseau	✓		✓		N/A
Prise en charge du service parallèle de modèles	✓³	✓	✓³		✓³
Chiffrement de volume	✓	✓	✓	✓	N/A
AWS KMS client	✓	✓	✓	✓	N/A
Prise en charge des instances d	✓	✓	✓		N/A
Prise en charge de inf1	✓				✓

Avec SageMaker AI, vous pouvez déployer un seul modèle, ou plusieurs modèles derrière un seul point de terminaison d’inférence pour une inférence en temps réel. Le tableau suivant récapitule les principales fonctionnalités prises en charge par les différentes options d'hébergement associées à l'inférence en temps réel.

Fonctionnalité	Points de terminaison à modèle unique	Points de terminaison multi-modèles	Pipeline d'inférence en série	Points de terminaison multi-conteneurs
Prise en charge de la mise à l'échelle automatique	✓	✓	✓	✓
Prise en charge GPU	✓¹	✓	✓
Modèle unique	✓	✓	✓	✓
Points de terminaison multi-modèles		✓	✓	N/A
Points de terminaison multi-conteneurs	✓			N/A
Pipeline d'inférence en série	✓	✓	N/A
Inference Recommender	✓
Prise en charge des liens privés	✓	✓	✓	✓
Prise en charge de capture de données/Model Monitor	✓	N/A	N/A	N/A
DLC pris en charge	1P, préconçu, Extend préconçu, BYOC	k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn ²	1P, préconçu, Extend préconçu, BYOC	1P, préconçu, Extend préconçu, BYOC
Protocoles pris en charge	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)
Taille de la charge utile	< 6 Mo	< 6 Mo	< 6 Mo	< 6 Mo
Expiration de la demande	< 60 secondes	< 60 secondes	< 60 secondes	< 60 secondes
Barrières de protection de déploiement : déploiements bleu/vert	✓	✓	✓	✓
Barrières de protection de déploiement : déploiements propagés	✓	✓	✓	✓
Tests shadow	✓
Prise en charge des packages de modèles de marketplace	✓
Prise en charge des clouds privés virtuels	✓	✓	✓	✓
Prise en charge de plusieurs variantes de production	✓		✓	✓
Isolement de réseau	✓	✓	✓	✓
Prise en charge du service parallèle de modèles	✓ ³		✓ ³
Chiffrement de volume	✓	✓	✓	✓
AWS KMS client	✓	✓	✓	✓
Prise en charge des instances d	✓	✓	✓	✓
Prise en charge de inf1	✓

¹ La disponibilité des types d'instances Amazon EC2 dépend de la région AWS. Pour connaître la disponibilité des instances spécifiques à AWS, consultez Tarification d’Amazon SageMaker AI.

² Pour utiliser n’importe quel autre cadre ou algorithme, utilisez la boîte à outils SageMaker AI Inference afin de créer un conteneur prenant en charge les points de terminaison multimodèles.

³ Avec SageMaker AI, vous pouvez déployer de grands modèles (jusqu’à 500 Go) à des fins d’inférence. Vous pouvez configurer la surveillance de l'état du conteneur et les quotas d'expiration de téléchargement, jusqu'à 60 minutes. Vous aurez ainsi plus de temps pour télécharger et charger votre modèle et les ressources associées. Pour plus d’informations, consultez Paramètres de point de terminaison SageMaker AI pour l’inférence de modèles de grande taille. Vous pouvez utiliser des conteneurs d’inférence de grands modèles compatibles avec SageMaker AI. Vous pouvez également utiliser des bibliothèques de parallélisation de modèles tierces, telles que Triton avec FasterTransformer et DeepSpeed. Vous devez vous assurer qu’elles sont compatibles avec SageMaker AI.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mise à jour des conteneurs pour NVIDIA Container Toolkit

Ressources