As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Como os tokens são contados no Amazon Bedrock
Quando você executa a inferência do modelo, há cotas no número de tokens que podem ser processados, dependendo do modelo do Amazon Bedrock que você usa. Analise a seguinte terminologia relacionada às cotas de token:
Prazo | Definição |
---|---|
InputTokenCount |
A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens em uma solicitação fornecida como entrada para o modelo. |
OutputTokenCount |
A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens gerados pelo modelo em resposta a uma solicitação. |
CacheReadInputTokens |
A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram recuperados com sucesso de um cache em vez de serem reprocessados pelo modelo. Esse valor será 0 se você não usar o cache de prompts. |
CacheWriteInputTokens |
A métrica de tempo de execução do CloudWatch Amazon Bedrock que representa o número de tokens de entrada que foram gravados com sucesso no cache. Esse valor será 0 se você não usar o cache de prompts. |
Tokens por minuto (TPM) | Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um minuto. |
Tokens por dia (TPD) | Uma cota definida AWS no nível do modelo com base no número de tokens (incluindo entrada e saída) que você pode usar em um dia. Por padrão, esse valor é TPM x 24 x 60. No entanto, novos Contas da AWS reduziram as cotas. |
Solicitações por minuto (RPM) | Uma cota definida AWS no nível do modelo com base no número de solicitações que você pode enviar em um minuto. |
max_tokens |
Um parâmetro que você fornece em sua solicitação para definir uma quantidade máxima de tokens de saída que o modelo pode gerar. |
Taxa de queima | A taxa na qual os tokens de entrada e saída são convertidos em uso da cota de tokens para o sistema de limitação. |
A taxa de burndown para os seguintes modelos é 5x para tokens de saída (1 token de saída consome 5 tokens de suas cotas):
-
AnthropicClaude Opus4
-
Anthropic Claude Sonnet 4
-
Anthropic Claude 3.7 Sonnet
Para todos os outros modelos, a taxa de burndown é de 1:1 (1 token de saída consome 1 token da sua cota).
Tópicos
Entendendo o gerenciamento de cotas de tokens
Quando você faz uma solicitação, os tokens são deduzidos de suas cotas de TPM e TPD. Os cálculos ocorrem nos seguintes estágios:
-
No início da solicitação — supondo que você não tenha excedido sua cota de RPM, a seguinte soma é deduzida de suas cotas. A solicitação será limitada se você exceder uma cota.
Total input tokens + max_tokens
-
Durante o processamento — a cota consumida pela solicitação é ajustada periodicamente para levar em conta o número real de tokens de saída gerados.
-
Ao final da solicitação — O número total de tokens consumidos pela solicitação será calculado da seguinte forma e todos os tokens não utilizados serão reabastecidos de acordo com sua cota:
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
Se você não usar o cache de prompts,
CacheWriteInputTokens
será 0.CacheReadInputTokens
não contribua para esse cálculo.
nota
Você só é cobrado pelo uso real do token.
Por exemplo, se você usar Anthropic Claude Sonnet 4 e enviar uma solicitação contendo 1.000 tokens de entrada e ela gerar uma resposta equivalente a 100 tokens:
-
1.500 tokens (1.000 + 100 x 5) serão esgotados de suas cotas de TPM e TPD.
-
Você só será cobrado por 1.100 tokens.
Entendendo o impacto do parâmetro max_tokens
O max_tokens
valor é deduzido da sua cota no início de cada solicitação. Se você estiver atingindo as cotas do TPM mais cedo do que o esperado, tente reduzir max_tokens
para aproximar melhor o tamanho de suas conclusões.
Os cenários a seguir fornecem exemplos de como as deduções de cotas funcionariam em solicitações concluídas usando um modelo que tem uma taxa de queima de 5 vezes para tokens de saída:
Suponha os seguintes parâmetros:
-
InputTokenCount: 3.000
-
CacheReadInputTokens: 4.000
-
CacheWriteInputTokens: 1.000
-
OutputTokenCount: 1.000
-
máximo de tokens: 32.000
As seguintes deduções de cota ocorrem:
-
Dedução inicial quando a solicitação é feita: 40.000 (= 3.000 + 4.000 + 1.000 + 32.000)
-
Dedução final ajustada após a geração da resposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)
Nesse cenário, menos solicitações simultâneas poderiam ser feitas porque o max_tokens
parâmetro foi definido como muito alto. Isso reduz a simultaneidade de solicitações, a taxa de transferência e a utilização da cota, pois a capacidade da cota do TPM seria alcançada rapidamente.
Suponha os seguintes parâmetros:
-
InputTokenCount: 3.000
-
CacheReadInputTokens: 4.000
-
CacheWriteInputTokens: 1.000
-
OutputTokenCount: 1.000
-
número máximo de tokens: 1.250
As seguintes deduções de cota ocorrem:
-
Dedução inicial quando a solicitação é feita: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)
-
Dedução final ajustada após a geração da resposta: 9.000 (= 3.000 + 1.000 + 1.000 x 5)
Nesse cenário, o max_tokens
parâmetro foi otimizado, pois a dedução inicial é apenas um pouco maior do que a dedução final ajustada. Isso ajudou a aumentar a simultaneidade de solicitações, a taxa de transferência e a utilização da cota.
Otimizando o parâmetro max_tokens
Ao otimizar o max_tokens
parâmetro, você pode utilizar com eficiência sua capacidade de cota alocada. Para ajudar a informar sua decisão sobre esse parâmetro, você pode usar a Amazon CloudWatch, que coleta automaticamente métricas de AWS serviços, incluindo dados de uso de tokens no Amazon Bedrock.
Os tokens são registrados nas métricas InputTokenCount
e OutputTokenCount
de tempo de execução (para obter mais métricas, consulteMétricas de runtime do Amazon Bedrock.
Para usar o CloudWatch monitoramento para informar sua decisão sobre o max_tokens
parâmetro, faça o seguinte no AWS Management Console:
-
Faça login no CloudWatch console da Amazon em https://console.aws.amazon.com/cloudwatch
. -
No painel de navegação esquerdo, selecione Painéis.
-
Selecione a guia Painéis automáticos.
-
Selecione Bedrock.
-
No painel Contagens de tokens por modelo, selecione o ícone de expansão.
-
Selecione uma duração de tempo e parâmetros de intervalo para que as métricas contabilizem o pico de uso.
-
No menu suspenso denominado Soma, você pode escolher métricas diferentes para observar o uso do token. Examine essas métricas para orientar sua decisão de definir seu
max_tokens
valor.