Cas d'utilisation du texte

Support de streaming

Dans une application de chat, la latence est un indicateur important pour garantir une expérience utilisateur réactive. La possibilité que les inférences du LLM prennent de quelques secondes à quelques minutes pose des défis quant à la meilleure façon de proposer du contenu aux clients. Pour cette raison, plusieurs fournisseurs de LLM autorisent le renvoi des réponses en continu à l'appelant. Au lieu d'attendre que l'inférence soit complète avant de renvoyer une réponse, chaque jeton peut être renvoyé lorsqu'il est disponible.

Pour faciliter l'utilisation de cette fonctionnalité, l'exemple d'utilisation du texte a été conçu pour utiliser une WebSocket API afin de renforcer l'expérience de chat. Ceci WebSocket est déployé via API Gateway. L'utilisation d'une WebSocket API permet de créer une connexion au début d'une session de chat et de diffuser les réponses via ce socket. Cela permet aux applications frontales d'offrir une meilleure expérience utilisateur.

Note

Même si un modèle prend en charge le streaming, cela ne signifie pas nécessairement que la solution sera en mesure de renvoyer les réponses via l' WebSocket API. La solution doit activer une logique personnalisée pour prendre en charge le streaming pour chaque fournisseur de modèles. Si le streaming est disponible, les utilisateurs administrateurs pourront accéder à enable/disable cette fonctionnalité au moment du déploiement.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Tableau de bord de déploiement

Fonctionnement de la solution Generative AI Application Builder sur AWS