Conseils pour gérer les limites des modèles de jetons

Remarque : La solution ne tente pas directement de gérer les limites de jetons imposées par divers LLMs. Testez et assurez-vous que votre message respecte les limites disponibles imposées par le fournisseur de modèles.

Pour vous aider à contrôler la taille des invites, essayez ce qui suit :

Familiarisez-vous avec les limites imposées par le modèle que vous souhaitez utiliser. Ces valeurs peuvent varier considérablement d'un modèle à l'autre. Il est donc important de connaître votre budget disponible avant de commencer.
Élaborez votre invite initiale en tenant compte de ce budget et réfléchissez au montant que vous souhaitez économiser pour les éléments dynamiques de l'invite. Par exemple, les entrées de l'utilisateur, l'historique des discussions, les extraits de documents, etc.
Sur la page de configuration de l'invite, définissez une limite pour la taille de l'historique de suivi afin de limiter le nombre de tours de conversation inclus dans l'invite.
Définissez les limites de retour des documents dans l'assistant de configuration de la base de connaissances. Vous devez essayer de trouver le juste équilibre entre fournir au LLM suffisamment de contexte pour effectuer la tâche, mais pas au point de dépasser les limites de jetons ou d'affecter négativement la latence.
Laisse un peu de tampon. N'établissez pas de budget pour un cas typique, réfléchissez aux cas extrêmes, tels que les longues requêtes de saisie, les extraits de documents volumineux ou les longues conversations, et expérimentez avec eux.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration de Workflow Builder

Étapes pour créer une image Docker du serveur MCP