View a markdown version of this page

Dicas para gerenciar os limites do token do modelo - Criador de aplicações de IA generativa na AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Dicas para gerenciar os limites do token do modelo

Nota: A solução não tenta gerenciar diretamente os limites de tokens impostos por vários LLMs. Teste e garanta que sua solicitação permaneça dentro dos limites disponíveis impostos pelo fornecedor do modelo.

Para ajudar a controlar o tamanho dos prompts, tente o seguinte:

  1. Familiarize-se com os limites impostos pelo modelo que você deseja usar. Esses valores podem diferir drasticamente entre os modelos, por isso é importante saber qual é o orçamento disponível antes de começar.

  2. Crie sua solicitação inicial com esse orçamento em mente e considere quanto você deseja economizar em qualquer elemento dinâmico da solicitação. Por exemplo, entrada do usuário, histórico de bate-papo, trechos de documentos e assim por diante.

  3. Na página de configuração do prompt, defina um limite para o tamanho do histórico final para limitar o número de turnos de conversação incluídos no prompt.

  4. Defina limites de devolução de documentos no assistente de configuração da Base de Conhecimento. Você precisa tentar encontrar o equilíbrio certo entre fornecer ao LLM contexto suficiente para realizar a tarefa, mas não tanto a ponto de exceder os limites de token ou afetar negativamente a latência.

  5. Deixe um pouco de amortecedor. Não faça um orçamento para um caso típico, pense e experimente casos extremos, como longas consultas de entrada, trechos grandes de documentos ou longas conversas.