Options d'inférence dans Amazon AI SageMaker

SageMaker L'IA propose plusieurs options d'inférence afin que vous puissiez choisir celle qui convient le mieux à votre charge de travail :

Inférence en temps réel : l'inférence en temps réel est idéale pour les inférences en ligne nécessitant une faible latence ou un débit élevé. Utilisez l'inférence en temps réel pour un point de terminaison persistant et entièrement géré (API REST) capable de gérer un trafic soutenu, soutenu par le type d'instance de votre choix. L’inférence en temps réel peut prendre en charge des tailles de données utiles allant jusqu’à 25 Mo ainsi que des durées de traitement de 60 secondes pour les réponses régulières et de 8 minutes pour les réponses en streaming.
Inférence sans serveur : L'inférence sans serveur est idéale lorsque les modèles de trafic sont intermittents ou imprévisibles. SageMaker L'IA gère l'ensemble de l'infrastructure sous-jacente, il n'est donc pas nécessaire de gérer les instances ou de mettre à l'échelle les politiques. Vous ne payez que pour ce que vous utilisez et non pour le temps d'inactivité. Elle peut prendre en charge des charges utiles allant jusqu'à 4 Mo et des temps de traitement allant jusqu'à 60 secondes.
Transformation par lots : la transformation par lots convient au traitement hors ligne lorsque de grandes quantités de données sont disponibles à l'avance et que vous n'avez pas besoin d'un point de terminaison persistant. Vous pouvez également utiliser la transformation par lots pour le prétraitement des jeux de données. Il peut prendre en charge de grands ensembles de données dont la taille et GBs les délais de traitement se chiffrent en jours.
Inférence asynchrone : l'inférence asynchrone est idéale lorsque vous souhaitez mettre en file d'attente des demandes et disposer de charges utiles importantes avec de longs délais de traitement. L'inférence asynchrone peut prendre en charge des charges utiles allant jusqu'à 1 Go et des temps de traitement longs allant jusqu'à une heure. Vous pouvez également réduire votre point de terminaison à 0 lorsqu'il n'y a aucune demande à traiter.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Options de déploiement des modèles et d’obtention d’inférences

Options de point de terminaison avancées