As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Dicas para gerenciar os limites do token do modelo
Nota: A solução não tenta gerenciar diretamente os limites de tokens impostos por vários LLMs. Teste e garanta que sua solicitação permaneça dentro dos limites disponíveis impostos pelo fornecedor do modelo.
Para ajudar a controlar o tamanho dos prompts, tente o seguinte:
-
Familiarize-se com os limites impostos pelo modelo que você deseja usar. Esses valores podem diferir drasticamente entre os modelos, por isso é importante saber qual é o orçamento disponível antes de começar.
-
Crie sua solicitação inicial com esse orçamento em mente e considere quanto você deseja economizar em qualquer elemento dinâmico da solicitação. Por exemplo, entrada do usuário, histórico de bate-papo, trechos de documentos e assim por diante.
-
Na página de configuração do prompt, defina um limite para o tamanho do histórico final para limitar o número de turnos de conversação incluídos no prompt.
-
Defina limites de devolução de documentos no assistente de configuração da Base de Conhecimento. Você precisa tentar encontrar o equilíbrio certo entre fornecer ao LLM contexto suficiente para realizar a tarefa, mas não tanto a ponto de exceder os limites de token ou afetar negativamente a latência.
-
Deixe um pouco de amortecedor. Não faça um orçamento para um caso típico, pense e experimente casos extremos, como longas consultas de entrada, trechos grandes de documentos ou longas conversas.