

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Dicas para gerenciar os limites do token do modelo
<a name="tips-for-managing-model-token-limits"></a>

Nota: A solução não tenta gerenciar diretamente os limites de tokens impostos por vários LLMs. Teste e garanta que sua solicitação permaneça dentro dos limites disponíveis impostos pelo fornecedor do modelo.

Para ajudar a controlar o tamanho dos prompts, tente o seguinte:

1. Familiarize-se com os limites impostos pelo modelo que você deseja usar. Esses valores podem diferir drasticamente entre os modelos, por isso é importante saber qual é o orçamento disponível antes de começar.

1. Crie sua solicitação inicial com esse orçamento em mente e considere quanto você deseja economizar em qualquer elemento dinâmico da solicitação. Por exemplo, entrada do usuário, histórico de bate-papo, trechos de documentos e assim por diante.

1. Na página de configuração do prompt, defina um limite para o **tamanho do histórico** final para limitar o número de turnos de conversação incluídos no prompt.

1. Defina limites de devolução de documentos no assistente de configuração da Base de Conhecimento. Você precisa tentar encontrar o equilíbrio certo entre fornecer ao LLM contexto suficiente para realizar a tarefa, mas não tanto a ponto de exceder os limites de token ou afetar negativamente a latência.

1. Deixe um pouco de amortecedor. Não faça um orçamento para um caso típico, pense e experimente casos extremos, como longas consultas de entrada, trechos grandes de documentos ou longas conversas.