Como os tokens são contados no Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como os tokens são contados no Amazon Bedrock

Quando você executa a inferência do modelo, há cotas no número de tokens que podem ser processados, dependendo do modelo do Amazon Bedrock que você usa. Analise a seguinte terminologia relacionada às cotas de token:

Prazo Definição
InputTokenCount A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens em uma solicitação fornecida como entrada para o modelo.
OutputTokenCount A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens gerados pelo modelo em resposta a uma solicitação.
CacheReadInputTokens A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram recuperados com sucesso de um cache em vez de serem reprocessados pelo modelo. Esse valor será 0 se você não usar o armazenamento em cache de prompts.
CacheWriteInputTokens A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram gravados com sucesso no cache. Esse valor será 0 se você não usar o armazenamento em cache de prompts.
Tokens por minuto (TPM) Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um minuto.
Tokens por dia (TPD) Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um dia. Por padrão, esse valor é TPM x 24 x 60. No entanto, novos Contas da AWS reduziram as cotas.
Solicitações por minuto (RPM) Uma cota definida AWS no nível do modelo com base no número de solicitações que você pode enviar em um minuto.
max_tokens Um parâmetro que você fornece em sua solicitação para definir a quantidade máxima de tokens de saída que o modelo pode gerar.
Taxa de burndown A taxa na qual os tokens de entrada e saída são convertidos em uso da cota de tokens para o sistema de controle de utilização.

A taxa de burndown para os seguintes modelos é cinco vezes para tokens de saída (um token de saída consome cinco tokens de suas cotas):

  • AnthropicClaude Opus4

  • AnthropicClaude Opus4.1

  • Anthropic Claude Sonnet 4.5

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

  • AnthropicClaude 3 Haiku4.5

Para todos os outros modelos, a taxa de burndown é de 1:1 (um token de saída consome um token da sua cota).

Noções básicas sobre o gerenciamento de cotas de tokens

Quando você faz uma solicitação, os tokens são deduzidos de suas cotas de TPM e TPD. Os cálculos ocorrem nos seguintes estágios:

  • No início da solicitação: supondo que você não tenha excedido sua cota de RPM, a soma a seguir é deduzida de suas cotas. A solicitação terá controle de utilização se você exceder uma cota.

    Total input tokens + max_tokens
  • Durante o processamento: a cota consumida pela solicitação é ajustada periodicamente para levar em conta o número real de tokens de saída gerados.

  • Ao final da solicitação: o número total de tokens consumidos pela solicitação será calculado da seguinte forma e todos os tokens não utilizados serão reabastecidos de acordo com sua cota:

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    Se você não usar o armazenamento em cache de prompts, CacheWriteInputTokens será 0. CacheReadInputTokens não entra nesse cálculo.

nota

Você só receberá cobrança pelo uso real do token.

Por exemplo, se você usar o Claude Sonnet 4 da Anthropic e enviar uma solicitação contendo 1.000 tokens de entrada e ele gerar uma resposta equivalente a 100 tokens:

  • 1.500 tokens (1.000 + 100 x 5) serão deduzidos de suas cotas de TPM e TPD.

  • Você só receberá cobrança por 1.100 tokens.

Noções básicas sobre o impacto do parâmetro max_tokens

O valor max_tokens é deduzido da sua cota no início de cada solicitação. Se você estiver atingindo as cotas de TPM mais cedo do que o esperado, tente reduzir max_tokens para chegar mais próximo do tamanho das respostas.

Os seguintes cenários oferecem exemplos de como as deduções de cota funcionariam em solicitações concluídas usando um modelo que tem uma taxa de burndown de cinco vezes para tokens de saída:

Considere os seguintes parâmetros:

  • InputTokenCount: 3.000

  • CacheReadInputTokens: 4.000

  • CacheWriteInputTokens: 1.000

  • OutputTokenCount: 1.000

  • max_tokens: 32.000

As seguintes deduções de cota ocorrem:

  • Dedução inicial quando a solicitação é feita: 40.000 (= 3.000 + 4.000 + 1.000 + 32.000)

  • Dedução final ajustada após a geração da resposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

Nesse cenário, menos solicitações simultâneas poderiam ser feitas porque o parâmetro max_tokens foi definido como muito alto. Isso reduz a simultaneidade das solicitações, o throughput e a utilização da cota, pois a capacidade da cota do TPM seria alcançada rapidamente.

Considere os seguintes parâmetros:

  • InputTokenCount: 3.000

  • CacheReadInputTokens: 4.000

  • CacheWriteInputTokens: 1.000

  • OutputTokenCount: 1.000

  • max_tokens: 1.250

As seguintes deduções de cota ocorrem:

  • Dedução inicial quando a solicitação é feita: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)

  • Dedução final ajustada após a geração da resposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

Nesse cenário, o parâmetro max_tokens foi otimizado, pois a dedução inicial é apenas um pouco maior do que a dedução final ajustada. Isso ajudou a aumentar a simultaneidade das solicitações, o throughput e a utilização da cota.

Otimizar o parâmetro max_tokens

Ao otimizar o parâmetro max_tokens, você pode utilizar com eficiência sua capacidade de cota alocada. Para ajudar a informar sua decisão sobre esse parâmetro, você pode usar a Amazon CloudWatch, que coleta automaticamente métricas de AWS serviços, incluindo dados de uso de tokens no Amazon Bedrock.

Os tokens são registrados nas métricas de runtime InputTokenCount e OutputTokenCount (para ver mais métricas, consulte Métricas de runtime do Amazon Bedrock).

Para usar o CloudWatch monitoramento para informar sua decisão sobre o max_tokens parâmetro, faça o seguinte noConsole de gerenciamento da AWS:

  1. Faça login no CloudWatch console da Amazon em https://console.aws.amazon.com/cloudwatch.

  2. No painel de navegação à esquerda, selecione Painéis.

  3. Selecione a guia Painéis automáticos.

  4. Selecione Bedrock.

  5. No painel Contagens de tokens por modelo, selecione o ícone de expansão.

  6. Selecione uma duração e parâmetros de intervalo para que as métricas contabilizem o pico de uso.

  7. No menu suspenso denominado Soma, você pode escolher métricas diferentes para observar o uso de tokens. Examine essas métricas para orientar sua decisão ao definir o valor max_tokens.