Options d’inférence dans Amazon SageMaker AI - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Options d’inférence dans Amazon SageMaker AI

SageMaker AI propose plusieurs options d’inférence afin que vous puissiez choisir celle qui convient le mieux à votre charge de travail :

  • Inférence en temps réel : l'inférence en temps réel est idéale pour les inférences en ligne nécessitant une faible latence ou un débit élevé. Utilisez l'inférence en temps réel pour un point de terminaison persistant et entièrement géré (API REST) capable de gérer un trafic soutenu, soutenu par le type d'instance de votre choix. L’inférence en temps réel peut prendre en charge des tailles de données utiles allant jusqu’à 25 Mo ainsi que des durées de traitement de 60 secondes pour les réponses régulières et de 8 minutes pour les réponses en streaming.

  • Inférence sans serveur : l'inférence sans serveur est idéale lorsque vous avez des modèles de trafic intermittents ou imprévisibles. SageMaker AI gère l’ensemble de l’infrastructure sous-jacente. Il n’est donc pas nécessaire de gérer des instances ni des politiques de mise à l’échelle. Vous ne payez que pour ce que vous utilisez et non pour le temps d'inactivité. Elle peut prendre en charge des charges utiles allant jusqu'à 4 Mo et des temps de traitement allant jusqu'à 60 secondes.

  • Transformation par lots : la transformation par lots convient au traitement hors ligne lorsque de grandes quantités de données sont disponibles à l'avance et que vous n'avez pas besoin d'un point de terminaison persistant. Vous pouvez également utiliser la transformation par lots pour le prétraitement des jeux de données. Il peut prendre en charge de grands jeux de données de plusieurs Go et des durées de traitement de plusieurs jours.

  • Inférence asynchrone : l'inférence asynchrone est idéale lorsque vous souhaitez mettre en file d'attente des demandes et disposer de charges utiles importantes avec de longs délais de traitement. L'inférence asynchrone peut prendre en charge des charges utiles allant jusqu'à 1 Go et des temps de traitement longs allant jusqu'à une heure. Vous pouvez également réduire votre point de terminaison à 0 lorsqu'il n'y a aucune demande à traiter.