View a markdown version of this page

Suggerimenti per la gestione dei limiti dei token del modello - Generative AI Application Builder su AWS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Suggerimenti per la gestione dei limiti dei token del modello

Nota: la soluzione non tenta direttamente di gestire i limiti dei token imposti da vari LLMs. Verifica e assicurati che la richiesta rimanga entro i limiti disponibili applicati dal fornitore del modello.

Per controllare la dimensione dei prompt, provate quanto segue:

  1. Acquisisci familiarità con i limiti imposti dal modello che desideri utilizzare. Questi valori possono differire notevolmente tra i modelli, quindi è importante sapere qual è il budget disponibile prima di iniziare.

  2. Crea il tuo prompt iniziale tenendo presente quel budget e considera quanto vuoi risparmiare per eventuali elementi dinamici del prompt. Ad esempio, input dell'utente, cronologia chat, estratti di documenti e così via.

  3. Nella pagina di configurazione del prompt, imposta un limite per la dimensione della cronologia finale per limitare il numero di turni di conversazione inclusi nel prompt.

  4. Imposta i limiti di restituzione dei documenti nella procedura guidata di configurazione della Knowledge Base. È necessario cercare di trovare il giusto equilibrio tra fornire all'LLM un contesto sufficiente per eseguire l'operazione, ma non tanto da superare i limiti dei token o influire negativamente sulla latenza.

  5. Lascia un po' di buffer. Non pensate al budget per i casi tipici, ma pensate e sperimentate casi limite, come lunghe domande di input, estratti di documenti di grandi dimensioni o lunghe conversazioni.