Entendendo o gerenciamento de cotas de tokens Entendendo o impacto do parâmetro max_tokens Otimizando o parâmetro max_tokens

Como os tokens são contados no Amazon Bedrock

Quando você executa a inferência do modelo, há cotas no número de tokens que podem ser processados, dependendo do modelo do Amazon Bedrock que você usa. Analise a seguinte terminologia relacionada às cotas de token:

Prazo	Definição
`InputTokenCount`	A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens em uma solicitação fornecida como entrada para o modelo.
`OutputTokenCount`	A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens gerados pelo modelo em resposta a uma solicitação.
`CacheReadInputTokens`	A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram recuperados com sucesso de um cache em vez de serem reprocessados pelo modelo. Esse valor será 0 se você não usar o cache de prompts.
`CacheWriteInputTokens`	A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram gravados com sucesso no cache. Esse valor será 0 se você não usar o cache de prompts.
Tokens por minuto (TPM)	Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um minuto.
Tokens por dia (TPD)	Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um dia. Por padrão, esse valor é TPM x 24 x 60. No entanto, novos Contas da AWS reduziram as cotas.
Solicitações por minuto (RPM)	Uma cota definida AWS no nível do modelo com base no número de solicitações que você pode enviar em um minuto.
`max_tokens`	Um parâmetro que você fornece em sua solicitação para definir uma quantidade máxima de tokens de saída que o modelo pode gerar.
Taxa de queima	A taxa na qual os tokens de entrada e saída são convertidos em uso da cota de tokens para o sistema de limitação.

A taxa de burndown para os seguintes modelos é 5x para tokens de saída (1 token de saída consome 5 tokens de suas cotas):

AnthropicClaude Opus4
Anthropic Claude Sonnet 4.5
Anthropic Claude Sonnet 4
Anthropic Claude 3.7 Sonnet

Para todos os outros modelos, a taxa de burndown é de 1:1 (1 token de saída consome 1 token da sua cota).

Tópicos

Entendendo o gerenciamento de cotas de tokens
Entendendo o impacto do parâmetro max_tokens
Otimizando o parâmetro max_tokens

Entendendo o gerenciamento de cotas de tokens

Quando você faz uma solicitação, os tokens são deduzidos de suas cotas de TPM e TPD. Os cálculos ocorrem nos seguintes estágios:

No início da solicitação — supondo que você não tenha excedido sua cota de RPM, a seguinte soma é deduzida de suas cotas. A solicitação será limitada se você exceder uma cota.
```
Total input tokens + max_tokens
```
Durante o processamento — a cota consumida pela solicitação é ajustada periodicamente para levar em conta o número real de tokens de saída gerados.
Ao final da solicitação — O número total de tokens consumidos pela solicitação será calculado da seguinte forma e todos os tokens não utilizados serão reabastecidos de acordo com sua cota:
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
Se você não usar o cache de prompts, CacheWriteInputTokens será 0. CacheReadInputTokensnão contribua para esse cálculo.

nota

Você só é cobrado pelo uso real do token.

Por exemplo, se você usar Anthropic Claude Sonnet 4 e enviar uma solicitação contendo 1.000 tokens de entrada e ela gerar uma resposta equivalente a 100 tokens:

1.500 tokens (1.000 + 100 x 5) serão esgotados de suas cotas de TPM e TPD.
Você só será cobrado por 1.100 tokens.

Entendendo o impacto do parâmetro max_tokens

O max_tokens valor é deduzido da sua cota no início de cada solicitação. Se você estiver atingindo as cotas do TPM mais cedo do que o esperado, tente reduzir max_tokens para aproximar melhor o tamanho de suas conclusões.

Os cenários a seguir fornecem exemplos de como as deduções de cotas funcionariam em solicitações concluídas usando um modelo que tem uma taxa de queima de 5 vezes para tokens de saída:

Suponha os seguintes parâmetros:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
máximo de tokens: 32.000

As seguintes deduções de cota ocorrem:

Dedução inicial quando a solicitação é feita: 40.000 (= 3.000 + 4.000 + 1.000 + 32.000)
Dedução final ajustada após a geração da resposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

Nesse cenário, menos solicitações simultâneas poderiam ser feitas porque o max_tokens parâmetro foi definido como muito alto. Isso reduz a simultaneidade de solicitações, a taxa de transferência e a utilização da cota, pois a capacidade da cota do TPM seria alcançada rapidamente.

Suponha os seguintes parâmetros:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
número máximo de tokens: 1.250

As seguintes deduções de cota ocorrem:

Dedução inicial quando a solicitação é feita: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)
Dedução final ajustada após a geração da resposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

Nesse cenário, o max_tokens parâmetro foi otimizado, pois a dedução inicial é apenas um pouco maior do que a dedução final ajustada. Isso ajudou a aumentar a simultaneidade de solicitações, a taxa de transferência e a utilização da cota.

Otimizando o parâmetro max_tokens

Ao otimizar o max_tokens parâmetro, você pode utilizar com eficiência sua capacidade de cota alocada. Para ajudar a informar sua decisão sobre esse parâmetro, você pode usar a Amazon CloudWatch, que coleta automaticamente métricas de AWS serviços, incluindo dados de uso de tokens no Amazon Bedrock.

Os tokens são registrados nas métricas InputTokenCount e OutputTokenCount de tempo de execução (para obter mais métricas, consulteMétricas de runtime do Amazon Bedrock.

Para usar o CloudWatch monitoramento para informar sua decisão sobre o max_tokens parâmetro, faça o seguinte no AWS Management Console:

Faça login no CloudWatch console da Amazon em https://console.aws.amazon.com/cloudwatch.
No painel de navegação esquerdo, selecione Painéis.
Selecione a guia Painéis automáticos.
Selecione Bedrock.
No painel Contagens de tokens por modelo, selecione o ícone de expansão.
Selecione uma duração de tempo e parâmetros de intervalo para que as métricas contabilizem o pico de uso.
No menu suspenso denominado Soma, você pode escolher métricas diferentes para observar o uso do token. Examine essas métricas para orientar sua decisão de definir seu max_tokens valor.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Cotas

Conte os tokens para monitorar o uso e o custo