View a markdown version of this page

Cas d'utilisation du texte - Générateur d'applications d'IA générative sur AWS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Cas d'utilisation du texte

Support de streaming

Dans une application de chat, la latence est un indicateur important pour garantir une expérience utilisateur réactive. La possibilité que les inférences du LLM prennent de quelques secondes à quelques minutes pose des défis quant à la meilleure façon de proposer du contenu aux clients. Pour cette raison, plusieurs fournisseurs de LLM autorisent le renvoi des réponses en continu à l'appelant. Au lieu d'attendre que l'inférence soit complète avant de renvoyer une réponse, chaque jeton peut être renvoyé lorsqu'il est disponible.

Pour faciliter l'utilisation de cette fonctionnalité, l'exemple d'utilisation du texte a été conçu pour utiliser une WebSocket API afin de renforcer l'expérience de chat. Ceci WebSocket est déployé via API Gateway. L'utilisation d'une WebSocket API permet de créer une connexion au début d'une session de chat et de diffuser les réponses via ce socket. Cela permet aux applications frontales d'offrir une meilleure expérience utilisateur.

Note

Même si un modèle prend en charge le streaming, cela ne signifie pas nécessairement que la solution sera en mesure de renvoyer les réponses via l' WebSocket API. La solution doit activer une logique personnalisée pour prendre en charge le streaming pour chaque fournisseur de modèles. Si le streaming est disponible, les utilisateurs administrateurs pourront accéder à enable/disable cette fonctionnalité au moment du déploiement.