Suggerimenti per la gestione dei limiti dei token del modello

Nota: la soluzione non tenta direttamente di gestire i limiti dei token imposti da vari LLMs. Verifica e assicurati che la richiesta rimanga entro i limiti disponibili applicati dal fornitore del modello.

Per controllare la dimensione dei prompt, provate quanto segue:

Acquisisci familiarità con i limiti imposti dal modello che desideri utilizzare. Questi valori possono differire notevolmente tra i modelli, quindi è importante sapere qual è il budget disponibile prima di iniziare.
Crea il tuo prompt iniziale tenendo presente quel budget e considera quanto vuoi risparmiare per eventuali elementi dinamici del prompt. Ad esempio, input dell'utente, cronologia chat, estratti di documenti e così via.
Nella pagina di configurazione del prompt, imposta un limite per la dimensione della cronologia finale per limitare il numero di turni di conversazione inclusi nel prompt.
Imposta i limiti di restituzione dei documenti nella procedura guidata di configurazione della Knowledge Base. È necessario cercare di trovare il giusto equilibrio tra fornire all'LLM un contesto sufficiente per eseguire l'operazione, ma non tanto da superare i limiti dei token o influire negativamente sulla latenza.
Lascia un po' di buffer. Non pensate al budget per i casi tipici, ma pensate e sperimentate casi limite, come lunghe domande di input, estratti di documenti di grandi dimensioni o lunghe conversazioni.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Configurazione di Workflow Builder

Passaggi per creare un server MCP Docker Image