Caching dei prompt per un’inferenza del modello più rapida
Nota
In Amazon Bedrock il caching dei prompt è generalmente disponibile con Claude 3.7 Sonnet, Claude 3.5 Haiku, Amazon Nova Micro, Amazon Nova Lite, Amazon Nova Pro e Amazon Nova Premier. I clienti a cui è stato concesso l’accesso a Claude 3.5 Sonnet v2 durante l’anteprima del caching dei prompt manterranno l’accesso, ma l’accesso al caching dei prompt nel modello Claude 3.5 Sonnet v2 non sarà concesso ad alcun altro cliente.
Il caching dei prompt è una funzionalità facoltativa che si può utilizzare con i modelli supportati in Amazon Bedrock per ridurre la latenza di risposta all’inferenza e i costi dei token di input. Aggiungendo parti del contesto a una cache, il modello può sfruttarla per evitare il ricalcolo degli input, permettendo a Bedrock di condividere i risparmi in termini di calcolo e di ridurre le latenze di risposta.
Il caching dei prompt può essere utile quando sono presenti carichi di lavoro con contesti lunghi e ripetuti spesso riutilizzati per più query. Ad esempio, se si dispone di un chatbot in cui gli utenti possono caricare documenti e successivamente porre domande sui documenti stessi, il modello può richiedere molto tempo per elaborare il documento ogni volta che l’utente fornisce un input. Con il caching dei prompt, è possibile memorizzare nella cache il documento in modo che le future query contenenti il documento non debbano elaborarlo nuovamente.
Quando si utilizza il caching dei prompt, viene addebitata una tariffa ridotta per i token letti dalla cache. In base al modello, i token scritti nella cache possono essere addebitati a una tariffa superiore a quella dei token di input non memorizzati nella cache. Tutti i token non letti da o scritti nella cache vengono addebitati alla tariffa standard dei token di input per il modello specifico. Per ulteriori informazioni, consulta la pagina Prezzi di Amazon Bedrock
Come funziona
Se si sceglie di utilizzare il caching dei prompt, Amazon Bedrock creare una cache composta di punti di controllo della cache. Si tratta di indicatori che definiscono la sottosezione contigua del prompt da memorizzare nella cache (spesso denominata prefisso del prompt). Tali prefissi devono essere statici tra le richieste e le modifiche al prefisso del prompt nelle richieste successive comportano errori nella cache.
I punti di controllo della cache hanno un numero minimo e massimo di token, in base al modello specifico in uso. Si può creare un punto di controllo della cache solo se il prefisso totale del prompt soddisfa il numero minimo di token. Ad esempio, il modello Anthropic Claude 3.7 Sonnet richiede almeno 1.024 token per punto di controllo della cache. Ciò significa che il primo punto di controllo della cache può essere definito dopo 1.024 token, mentre il secondo può essere definito dopo 2.048 token. Se si prova ad aggiungere un punto di controllo della cache prima di raggiungere il numero minimo di token, l’inferenza ha comunque esito positivo, ma il prefisso non viene memorizzato nella cache. La cache ha un valore TTL (Time To Live) di cinque minuti, che si ripristina a ogni accesso riuscito alla cache. Durante questo periodo, il contesto nella cache viene mantenuto. Se non si verificano accessi alla cache nell’intervallo TTL, la cache scade.
È possibile utilizzare il caching dei prompt ogni volta che si ottiene l’inferenza del modello in Amazon Bedrock per i modelli supportati. Il caching dei prompt è supportato dalle seguenti funzionalità di Amazon Bedrock:
- API Converse e ConverseStream
-
È possibile continuare una conversazione con un modello in cui si specificano i punti di controllo della cache nei prompt.
- API InvokeModel e InvokeModelWithResponseStream
-
È possibile inviare richieste di prompt singole in cui si può abilitare il caching dei prompt e specificare i punti di controllo della cache.
- Caching dei prompt con inferenza tra Regioni
-
Il caching dei prompt può essere utilizzato con l’inferenza tra Regioni. L’inferenza tra Regioni seleziona automaticamente la Regione AWS migliore nell’area geografica per soddisfare la richiesta di inferenza, ottimizzando in tal modo le risorse disponibili e la disponibilità del modello. Nei momenti di maggiore richiesta, tali ottimizzazioni possono comportare un aumento delle scritture nella cache.
- Gestione prompt di Amazon Bedrock
-
Quando si crea o si modifica un prompt, è possibile scegliere di abilitare il caching dei prompt. In base al modello, è possibile memorizzare nella cache i prompt e le istruzioni di sistema e i messaggi (di utente e assistente). È inoltre possibile scegliere di disattivare il caching dei prompt.
Le API offrono la massima flessibilità e il controllo granulare sul caching dei prompt. È possibile impostare un punto di controllo della cache individuale all’interno dei prompt nonché aggiungere punti di controllo alla cache creandone altri, fino al numero massimo di punti di controllo consentito per il modello specifico. Per ulteriori informazioni, consulta Modelli supportati, Regioni e limiti.
Modelli supportati, Regioni e limiti
Nella tabella seguente sono elencati i modelli supportati, i token minimi e il numero massimo di punti di controllo della cache relativi e i campi che consentono questi ultimi.
| Nome modello | ID modello | Tipi di rilascio | Numero minimo di token per punto di controllo della cache | Numero massimo di punti di controllo della cache per richiesta | Campi che accettano punti di controllo per il caching dei prompt |
|---|---|---|---|---|---|
Claude 3 Opus 4.1 |
anthropic.claude-opus-4-1-20250805-v1:0 |
Disponibilità generale |
1.024 |
4 |
`system`, `messages` e `tools` |
Claude Opus 4 |
anthropic.claude-opus-4-20250514-v1:0 |
Disponibilità generale |
1.024 |
4 |
`system`, `messages` e `tools` |
Claude Sonnet 4.5 |
anthropic.claude-sonnet-4-5-20250929-v1:0 |
Disponibilità generale |
1.024 |
4 |
`system`, `messages` e `tools` |
Claude Haiku 4.5 |
anthropic.claude-haiku-4-5-20251001-v1:0 |
Disponibilità generale |
4.096 |
4 |
`system`, `messages` e `tools` |
Claude Sonnet 4 |
anthropic.claude-sonnet-4-20250514-v1:0 |
Disponibilità generale |
1.024 |
4 |
`system`, `messages` e `tools` |
Claude 3.7 Sonnet |
anthropic.claude-3-7-sonnet-20250219-v1:0 |
Disponibilità generale |
1.024 |
4 |
`system`, `messages` e `tools` |
Claude 3.5 Haiku |
anthropic.claude-3-5-haiku-20241022-v1:0 |
Disponibilità generale |
2.048 |
4 |
`system`, `messages` e `tools` |
Claude 3.5 Sonnet v2 |
anthropic.claude-3-5-sonnet-20241022-v2:0 |
Anteprima |
1.024 |
4 |
`system`, `messages` e `tools` |
Amazon Nova Micro |
amazon.nova-micro-v1:0 |
Disponibilità generale |
1.0001 |
4 |
`system` e `messages` |
Amazon Nova Lite |
amazon.nova-lite-v1:0 |
Disponibilità generale |
1.0001 |
4 |
`system` e `messages`2 |
Amazon Nova Pro |
amazon.nova-pro-v1:0 |
Disponibilità generale |
1.0001 |
4 |
`system` e `messages`2 |
Amazon Nova Premier |
amazon.nova-premier-v1:0 |
Disponibilità generale |
1.0001 |
4 |
`system` e `messages`2 |
1: i modelli Amazon Nova supportano un numero massimo di 20.000 token per il caching dei prompt.
2: il caching dei prompt è principalmente destinato ai prompt di testo.
In Amazon Nova è disponibile il caching dei prompt automatico per tutti prompt di testo, inclusi i messaggi User e System. Questo meccanismo può offrire vantaggi in termini di latenza quando i prompt iniziano con parti ripetitive, anche senza una configurazione esplicita. Per ottenere risparmi sui costi e garantire vantaggi più costanti in termini di prestazioni, si consiglia di scegliere Caching dei prompt esplicito.
Gestione semplificata della cache per i modelli Claude
Per i modelli Claude, Amazon Bedrock offre un approccio semplificato alla gestione della cache che riduce la complessità del posizionamento manuale dei punti di controllo della cache. Anziché richiedere di specificare le posizioni esatte dei punti di controllo della cache, è possibile utilizzare la gestione automatica della cache con un singolo punto di interruzione al termine del contenuto statico.
Quando si abilita la gestione semplificata della cache, il sistema verifica automaticamente gli accessi alla cache in base ai limiti dei blocchi di contenuto precedenti, analizzando fino a circa 20 blocchi di contenuto dal punto di interruzione specificato. Ciò consente al modello di trovare il prefisso corrispondente più lungo nella cache senza la necessità di prevedere le posizioni ottimali dei punti di controllo. A tale scopo, posizionare un singolo punto di controllo della cache al termine del contenuto statico, prima di qualsiasi contenuto dinamico o variabile. Il sistema trova automaticamente la migliore corrispondenza nella cache.
Per un controllo più granulare, è comunque possibile utilizzare più punti di controllo della cache (fino a 4 per i modelli Claude) per specificare i limiti esatti della cache. È necessario utilizzare più punti di controllo della se si memorizzano nella cache sezioni che cambiano con frequenze diverse o se si desidera un maggiore controllo su ciò che viene esattamente memorizzato nella cache.
Importante
Il controllo automatico del prefisso analizza solo circa 20 blocchi di contenuto dal punto di controllo della cache. Se il contenuto statico si estende oltre questo intervallo, prendere in considerazione l’utilizzo di più punti di controllo della cache o la nuova creazione di del prompt per inserire i contenuti riutilizzati più frequentemente all’interno dell’intervallo.
Nozioni di base
Le sezioni seguenti mostrano una breve panoramica su come utilizzare la funzionalità di caching dei prompt per ogni metodo di interazione con i modelli tramite Amazon Bedrock.
L’API Converse offre opzioni avanzate e flessibili per implementare il caching dei prompt conversazioni a più turni. Per ulteriori informazioni sui requisiti dei prompt per ogni modello, consulta la sezione Modelli supportati, Regioni e limiti precedente.
Richiesta di esempio
Gli esempi seguenti mostrano un punto di controllo della cache impostato nel campo messages, system o tools di una richiesta all’API Converse. È possibile posizionare punti di controllo in una qualsiasi di queste posizioni per una determinata richiesta. Ad esempio, se si invia una richiesta al modello Claude 3.5 Sonnet v2, è possibile inserire due punti di controllo della cache inmessages, uno in system e uno in tools. Per ulteriori informazioni e per esempi di strutturazione e invio di richieste API Converse, consulta Avvio di una conversazione con le operazioni dell’API Converse.
Il modello di risposta dell’API Converse include due nuovi campi specifici per il caching dei prompt. I valori CacheReadInputTokens e CacheWriteInputTokens indicano quanti token sono stati letti e scritti dalla e nella cache a causa della richiesta precedente. Si tratta dei valori che vengono addebitati da Amazon Bedrock, a una tariffa inferiore al costo dell’inferenza del modello completa.
Il caching dei prompt è abilitato per impostazione predefinita quando si chiama l’API InvokeModel. È possibile impostare i punti di controllo della cache in qualsiasi punto del corpo della richiesta, in modo analogo all’esempio precedente per l’API Converse.
Per ulteriori informazioni sull’invio di una richiesta InvokeModel, consulta Inviare un singolo prompt con InvokeModel.
In un playground di chat nella console Amazon Bedrock, è possibile attivare l’opzione di caching dei prompt in modo che Amazon Bedrock crei automaticamente i punti di controllo della cache.
Per iniziare a utilizzare prompt in un playground Amazon Bedrock, segui le istruzioni presenti in Generare risposte nella console utilizzando i playground. Per i modelli supportati, il caching dei prompt viene attivato automaticamente nel playground. In caso contrario, segui questa procedura per attivare il caching dei prompt:
-
Nel pannello laterale sinistro, apri il menu Configurazioni.
-
Attiva l’interruttore Caching dei prompt.
-
Esegui i prompt.
Dopo che le risposte combinate di input e del modello hanno raggiunto il numero minimo richiesto di token per un punto di controllo (che varia in base al modello), Amazon Bedrock crea automaticamente il primo punto di controllo della cache. Man mano che continui a chattare, ogni volta che si raggiunge il numero minimo di token viene creato un nuovo punto di controllo, fino al numero massimo di punti di controllo consentito per il modello. Per visualizzare i punti di controllo della cache, in qualsiasi momento seleziona Visualizza i punti di controllo della cache accanto all’interruttore Caching dei prompt, come mostrato nella schermata seguente.
Per visualizzare il numero di token letti e scritti dalla e nella cache a causa di ogni interazione con il modello, apri la finestra popup Parametri di caching (
) nelle risposte del playground.
Se disattivi l’interruttore di caching dei prompt durante una conversazione, puoi continuare a chattare con il modello.