Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Come vengono conteggiati i token in Amazon Bedrock
Quando viene eseguita l’inferenza del modello, sono previste quote sul numero di token elaborabili in base al modello Amazon Bedrock in uso. Rivedere la seguente terminologia relativa alle quote dei token:
| Termine | Definizione |
|---|---|
InputTokenCount |
La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token in una richiesta fornita come input al modello. |
OutputTokenCount |
La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token generati dal modello in risposta a una richiesta. |
CacheReadInputTokens |
La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token di input che sono stati recuperati con successo da una cache anziché essere rielaborati dal modello. Questo valore è 0 se non si utilizza il caching dei prompt. |
CacheWriteInputTokens |
La metrica di runtime di CloudWatch Amazon Bedrock che rappresenta il numero di token di input che sono stati scritti correttamente nella cache. Questo valore è 0 se non si utilizza il caching dei prompt. |
| Token al minuto (TPM) | Una quota stabilita AWS a livello di modello sul numero di token (inclusi input e output) che puoi utilizzare in un minuto. |
| Token al giorno (TPD) | Una quota stabilita AWS a livello di modello sul numero di token (inclusi input e output) che è possibile utilizzare in un giorno. Per impostazione predefinita, questo valore è TPM x 24 x 60. Tuttavia, i nuovi Account AWS hanno quote ridotte. |
| Richieste al minuto (RPM) | Una quota stabilita AWS a livello di modello sul numero di richieste che è possibile inviare in un minuto. |
max_tokens |
Un parametro fornito nella richiesta per impostare la quantità massima di token di output che il modello può generare. |
| Tasso di consumo | Il tasso con cui i token di input e output vengono convertiti in utilizzo di quote di token per il sistema di limitazione della larghezza di banda della rete. |
Il tasso di consumo per i seguenti modelli è di 5 volte superiore per i token di output (1 token di output consuma 5 token delle quote):
-
AnthropicClaude Opus4
-
AnthropicClaude Opus4.1
-
Anthropic Claude Sonnet 4.5
-
Anthropic Claude Sonnet 4
-
Anthropic Claude 3.7 Sonnet
-
AnthropicClaude 3 Haiku4.5
Per tutti gli altri modelli, il tasso di consumo è di 1:1 (1 token di output consuma 1 token della quota).
Argomenti
Comprendere la gestione delle quote di token
Quando viene effettuata una richiesta, i token vengono detratti dalle quote TPM e TPD. I calcoli vengono effettuati nelle seguenti fasi:
-
All’inizio della richiesta: supponendo che non sia stata superata la quota RPM, dalle quote viene detratta la seguente somma. La richiesta viene limitata se si supera una quota.
Total input tokens + max_tokens -
Durante l’elaborazione: la quota consumata dalla richiesta viene periodicamente adeguata per tenere conto del numero effettivo di token di output generati.
-
Al termine della richiesta: il numero totale di token consumati dalla richiesta verrà calcolato come segue e tutti i token non utilizzati verranno reintegrati nella quota dell’utente:
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)Se non si utilizza il caching dei prompt,
CacheWriteInputTokensè 0.CacheReadInputTokensnon contribuiscono a questo calcolo.
Nota
Viene addebitato solo l’utilizzo effettivo del token.
Ad esempio, se viene utilizzato Anthropic Claude Sonnet 4 e viene inviata una richiesta contenente 1.000 token di input che genera una risposta equivalente a 100 token:
-
1.500 token (1.000 + 100 x 5) verranno dedotti dalle quote TPM e TPD.
-
Verranno fatturati solo 1.100 token.
Comprendere l’impatto del parametro max_tokens
Il valore max_tokens viene detratto dalla quota all’inizio di ogni richiesta. Se il limite delle quote TPM viene raggiunto prima del previsto, provare a ridurle max_tokens per approssimare meglio la dimensione dei completamenti.
Gli scenari seguenti forniscono esempi di come avrebbe funzionato la detrazione delle quote in base alle richieste completate utilizzando un modello con un tasso di consumo 5x per i token di output:
Assumere i seguenti parametri:
-
InputTokenCount: 3.000
-
CacheReadInputTokens: 4.000
-
CacheWriteInputTokens: 1.000
-
OutputTokenCount: 1.000
-
max_tokens: 32.000
Vengono effettuate le seguenti detrazioni di quote:
-
Detrazione iniziale quando viene effettuata la richiesta: 40.000 (= 3.000 + 4.000 + 1.000 + 32.000)
-
Detrazione rettificata finale dopo che viene generata la risposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)
In questo scenario, è possibile effettuare meno richieste simultanee perché il parametro max_tokens è impostato su un valore troppo elevato. Di conseguenza vengono ridotti la concomitanza delle richieste, lo throughput e l’utilizzo delle quote, poiché la capacità della quota TPM verrebbe raggiunta rapidamente.
Assumere i seguenti parametri:
-
InputTokenCount: 3.000
-
CacheReadInputTokens: 4.000
-
CacheWriteInputTokens: 1.000
-
OutputTokenCount: 1.000
-
max_tokens: 1.250
Vengono effettuate le seguenti detrazioni di quote:
-
Detrazione iniziale quando viene effettuata la richiesta: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)
-
Detrazione rettificata finale dopo che viene generata la risposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)
In questo scenario, il parametro max_tokens è stato ottimizzato, poiché la detrazione iniziale è solo leggermente superiore alla detrazione rettificata finale. Di conseguenza sono aumentati la concomitanza delle richieste, lo throughput e l’utilizzo delle quote.
Ottimizzazione del parametro max_tokens
L’ottimizzazione del parametro max_tokens consente di utilizzare in modo efficiente la capacità di quote allocata. Per aiutarti a prendere decisioni su questo parametro, puoi utilizzare Amazon CloudWatch, che raccoglie automaticamente le metriche dai AWS servizi, inclusi i dati sull'utilizzo dei token in Amazon Bedrock.
I token vengono registrati nelle metriche di runtime InputTokenCount e OutputTokenCount. Per ulteriori metriche, consultare Metriche di runtime Amazon Bedrock.
Per utilizzare il CloudWatch monitoraggio per prendere decisioni in merito al max_tokens parametro, procedi come segue in: Console di gestione AWS
-
Accedi alla CloudWatch console Amazon all'indirizzo https://console.aws.amazon.com/cloudwatch.
-
Nel riquadro di navigazione a sinistra seleziona Pannelli di controllo.
-
Seleziona la scheda Pannelli di controllo automatici.
-
Seleziona Bedrock.
-
Nella dashboard Conteggio dei token per modello, seleziona l’icona di espansione.
-
Seleziona un intervallo di tempo e i parametri dell’intervallo per le metriche in modo da tenere conto dei picchi di utilizzo.
-
Dal menu a discesa Somma, puoi scegliere diverse metriche per osservare l’utilizzo del token. Esamina queste metriche per orientare la tua decisione in merito all’impostazione del valore
max_tokens.