

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Suggerimenti per la gestione dei limiti dei token del modello
<a name="tips-for-managing-model-token-limits"></a>

Nota: la soluzione non tenta direttamente di gestire i limiti dei token imposti da vari LLMs. Verifica e assicurati che la richiesta rimanga entro i limiti disponibili applicati dal fornitore del modello.

Per controllare la dimensione dei prompt, provate quanto segue:

1. Acquisisci familiarità con i limiti imposti dal modello che desideri utilizzare. Questi valori possono differire notevolmente tra i modelli, quindi è importante sapere qual è il budget disponibile prima di iniziare.

1. Crea il tuo prompt iniziale tenendo presente quel budget e considera quanto vuoi risparmiare per eventuali elementi dinamici del prompt. Ad esempio, input dell'utente, cronologia chat, estratti di documenti e così via.

1. Nella pagina di configurazione del prompt, imposta un limite per la **dimensione della cronologia finale** per limitare il numero di turni di conversazione inclusi nel prompt.

1. Imposta i limiti di restituzione dei documenti nella procedura guidata di configurazione della Knowledge Base. È necessario cercare di trovare il giusto equilibrio tra fornire all'LLM un contesto sufficiente per eseguire l'operazione, ma non tanto da superare i limiti dei token o influire negativamente sulla latenza.

1. Lascia un po' di buffer. Non pensate al budget per i casi tipici, ma pensate e sperimentate casi limite, come lunghe domande di input, estratti di documenti di grandi dimensioni o lunghe conversazioni.