Comprendere la gestione delle quote di token Comprendere l'impatto del parametro max_tokens Ottimizzazione del parametro max_tokens

Come vengono contati i token in Amazon Bedrock

Quando esegui l'inferenza del modello, ci sono quote sul numero di token che possono essere elaborati a seconda del modello Amazon Bedrock che utilizzi. Consulta la seguente terminologia relativa alle quote dei token:

Termine	Definizione
`InputTokenCount`	La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token in una richiesta fornita come input al modello.
`OutputTokenCount`	La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token generati dal modello in risposta a una richiesta.
`CacheReadInputTokens`	La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token di input che sono stati recuperati con successo da una cache anziché essere rielaborati dal modello. Questo valore è 0 se non utilizzi il prompt caching.
`CacheWriteInputTokens`	La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token di input che sono stati scritti correttamente nella cache. Questo valore è 0 se non utilizzi il prompt caching.
Token al minuto (TPM)	Una quota stabilita AWS a livello di modello sul numero di token (inclusi input e output) che è possibile utilizzare in un minuto.
Token al giorno (TPD)	Una quota stabilita AWS a livello di modello sul numero di token (inclusi input e output) che è possibile utilizzare in un giorno. Per impostazione predefinita, questo valore è TPM x 24 x 60. Tuttavia, i nuovi Account AWS hanno quote ridotte.
Richieste al minuto (RPM)	Una quota impostata AWS a livello di modello sul numero di richieste che è possibile inviare in un minuto.
`max_tokens`	Un parametro fornito nella richiesta per impostare la quantità massima di token di output che il modello può generare.
Tasso di burndown	La velocità con cui i token di input e output vengono convertiti in quote di token utilizzate per il sistema di throttling.

La frequenza di burndown per i seguenti modelli è di 5 volte superiore per i token di output (1 token di output consuma 5 token delle quote):

AnthropicClaude Opus4
Anthropic Claude Sonnet 4.5
Anthropic Claude Sonnet 4
Anthropic Claude 3.7 Sonnet

Per tutti gli altri modelli, la frequenza di burndown è di 1:1 (1 token di output consuma 1 token della quota).

Argomenti

Comprendere la gestione delle quote di token
Comprendere l'impatto del parametro max_tokens
Ottimizzazione del parametro max_tokens

Comprendere la gestione delle quote di token

Quando effettui una richiesta, i token vengono detratti dalle quote TPM e TPD. I calcoli vengono eseguiti nelle seguenti fasi:

All'inizio della richiesta: supponendo che non sia stata superata la quota RPM, dalle quote viene detratta la seguente somma. La richiesta viene limitata se si supera una quota.
```
Total input tokens + max_tokens
```
Durante l'elaborazione: la quota consumata dalla richiesta viene periodicamente adeguata per tenere conto del numero effettivo di token di output generati.
Al termine della richiesta: il numero totale di token consumati dalla richiesta verrà calcolato come segue e tutti i token non utilizzati verranno reintegrati nella quota dell'utente:
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
Se non utilizzi il prompt caching, sarà 0. CacheWriteInputTokens CacheReadInputTokensnon contribuite a questo calcolo.

Nota

Ti viene addebitato solo l'utilizzo effettivo del token.

Ad esempio, se utilizzi Anthropic Claude Sonnet 4 e invii una richiesta contenente 1.000 token di input e questa genera una risposta equivalente a 100 token:

1.500 token (1.000 + 100 x 5) verranno eliminati dalle quote TPM e TPD.
Ti verranno fatturati solo 1.100 token.

Comprendere l'impatto del parametro max_tokens

Il max_tokens valore viene detratto dalla tua quota all'inizio di ogni richiesta. Se raggiungi le quote TPM prima del previsto, prova a ridurle per max_tokens approssimare meglio la dimensione dei tuoi completamenti.

Gli scenari seguenti forniscono esempi di come avrebbero funzionato le detrazioni delle quote sulle richieste completate utilizzando un modello con un tasso di burndown per i token di output pari a 5 volte:

Assumiamo i seguenti parametri:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
Numero massimo di gettoni: 32.000

Vengono effettuate le seguenti detrazioni di quota:

Detrazione iniziale su richiesta: 40.000 (= 3.000 + 4.000 + 1.000 + 32.000)
Detrazione finale rettificata dopo la generazione della risposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

In questo scenario, è possibile effettuare meno richieste simultanee perché il max_tokens parametro è impostato su un valore troppo elevato. Ciò riduce la concorrenza delle richieste, la velocità effettiva e l'utilizzo delle quote, poiché la capacità della quota TPM verrebbe raggiunta rapidamente.

Assumiamo i seguenti parametri:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
Numero massimo di gettoni: 1.250

Vengono effettuate le seguenti detrazioni di quota:

Detrazione iniziale su richiesta: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)
Detrazione finale rettificata dopo la generazione della risposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

In questo scenario, il max_tokens parametro è stato ottimizzato, poiché la detrazione iniziale è solo leggermente superiore alla detrazione rettificata finale. Ciò ha contribuito ad aumentare la concomitanza delle richieste, la velocità effettiva e l'utilizzo delle quote.

Ottimizzazione del parametro max_tokens

Ottimizzando il max_tokens parametro, puoi utilizzare in modo efficiente la capacità di quota allocata. Per aiutarti a prendere decisioni su questo parametro, puoi utilizzare Amazon CloudWatch, che raccoglie automaticamente le metriche dai AWS servizi, inclusi i dati sull'utilizzo dei token in Amazon Bedrock.

I token vengono registrati nelle metriche di OutputTokenCount runtime (per ulteriori metriche, consulta. InputTokenCount Metriche di runtime di Amazon Bedrock

Per utilizzare il CloudWatch monitoraggio per prendere decisioni in merito al max_tokens parametro, procedi come segue in: Console di gestione AWS

Accedi alla CloudWatch console Amazon all'indirizzo https://console.aws.amazon.com/cloudwatch.
Dal riquadro di navigazione a sinistra, seleziona Dashboard.
Seleziona la scheda Dashboard automatici.
Seleziona Bedrock.
Nella dashboard Token Counts by Model, seleziona l'icona di espansione.
Seleziona un intervallo di tempo, la durata e i parametri dell'intervallo per le metriche per tenere conto dei picchi di utilizzo.
Dal menu a discesa denominato Sum, puoi scegliere diverse metriche per osservare l'utilizzo del token. Esamina queste metriche per orientarti nella decisione di impostare il tuo valore. max_tokens

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Quote

Conta i token per monitorare l'utilizzo e i costi