View a markdown version of this page

Conseils pour gérer les limites des modèles de jetons - Générateur d'applications d'IA générative sur AWS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Conseils pour gérer les limites des modèles de jetons

Remarque : La solution ne tente pas directement de gérer les limites de jetons imposées par divers LLMs. Testez et assurez-vous que votre message respecte les limites disponibles imposées par le fournisseur de modèles.

Pour vous aider à contrôler la taille des invites, essayez ce qui suit :

  1. Familiarisez-vous avec les limites imposées par le modèle que vous souhaitez utiliser. Ces valeurs peuvent varier considérablement d'un modèle à l'autre. Il est donc important de connaître votre budget disponible avant de commencer.

  2. Élaborez votre invite initiale en tenant compte de ce budget et réfléchissez au montant que vous souhaitez économiser pour les éléments dynamiques de l'invite. Par exemple, les entrées de l'utilisateur, l'historique des discussions, les extraits de documents, etc.

  3. Sur la page de configuration de l'invite, définissez une limite pour la taille de l'historique de suivi afin de limiter le nombre de tours de conversation inclus dans l'invite.

  4. Définissez les limites de retour des documents dans l'assistant de configuration de la base de connaissances. Vous devez essayer de trouver le juste équilibre entre fournir au LLM suffisamment de contexte pour effectuer la tâche, mais pas au point de dépasser les limites de jetons ou d'affecter négativement la latence.

  5. Laisse un peu de tampon. N'établissez pas de budget pour un cas typique, réfléchissez aux cas extrêmes, tels que les longues requêtes de saisie, les extraits de documents volumineux ou les longues conversations, et expérimentez avec eux.