Cómo se cuentan los tokens en Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo se cuentan los tokens en Amazon Bedrock

Cuando ejecuta la inferencia de modelos, hay cuotas en la cantidad de tokens que se pueden procesar en función del modelo de Amazon Bedrock que utilice. Revise la siguiente terminología relacionada con las cuotas simbólicas:

Plazo Definición
InputTokenCount La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens de una solicitud proporcionada como entrada al modelo.
OutputTokenCount La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens generados por el modelo en respuesta a una solicitud.
CacheReadInputTokens La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens de entrada que se recuperaron correctamente de una memoria caché en lugar de ser reprocesados por el modelo. Este valor es 0 si no utiliza el almacenamiento rápido en caché.
CacheWriteInputTokens La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa el número de tokens de entrada que se escribieron correctamente en la memoria caché. Este valor es 0 si no utiliza el almacenamiento rápido en caché.
Tokens por minuto (TPM) Una cuota que se establece AWS a nivel de modelo en función del número de fichas (incluidas las entradas y las salidas) que se pueden utilizar en un minuto.
Fichas por día (TPD) Una cuota establecida AWS a nivel de modelo en función del número de fichas (incluidas las entradas y las salidas) que puedes usar en un día. De forma predeterminada, este valor es TPM x 24 x 60. Sin embargo, las nuevas Cuentas de AWS tienen cuotas reducidas.
Solicitudes por minuto (RPM) Una cuota establecida AWS a nivel de modelo en función del número de solicitudes que se pueden enviar en un minuto.
max_tokens Un parámetro que se proporciona en la solicitud para establecer la cantidad máxima de tokens de salida que el modelo puede generar.
Tasa de agotamiento La velocidad a la que los tokens de entrada y salida se convierten en cuotas simbólicas de uso para el sistema de regulación.

La tasa de consumo de los siguientes modelos es de 5 veces en el caso de las fichas de salida (1 ficha de salida consume 5 fichas de tus cuotas):

  • AnthropicClaude Opus4

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

Para todos los demás modelos, la tasa de agotamiento es de 1:1 (1 token de salida consume 1 token de tu cuota).

Entender la gestión de las cuotas simbólicas

Cuando realiza una solicitud, los tokens se deducen de sus cuotas de TPM y TPD. Los cálculos se realizan en las siguientes etapas:

  • Al inicio de la solicitud: suponiendo que no hayas superado tu cuota de RPM, se deduce la siguiente suma de tus cuotas. La solicitud se limita si superas una cuota.

    Total input tokens + max_tokens
  • Durante el procesamiento: la cuota consumida por la solicitud se ajusta periódicamente para tener en cuenta la cantidad real de tokens de salida generados.

  • Al final de la solicitud: la cantidad total de fichas consumidas por la solicitud se calculará de la siguiente manera y las fichas no utilizadas se repondrán a tu cuota:

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    Si no utilizas el almacenamiento rápido en caché, CacheWriteInputTokens será 0. CacheReadInputTokensno contribuyas a este cálculo.

nota

Solo se te facturará por el uso real de tus fichas.

Por ejemplo, si utilizas Anthropic Claude Sonnet 4 y envías una solicitud que contiene 1000 fichas de entrada y genera una respuesta equivalente a 100 fichas:

  • Se eliminarán 1500 fichas (1000 + 100 x 5) de tus cuotas de TPM y TPD.

  • Solo se te facturarán 1.100 fichas.

Comprender el impacto del parámetro max_tokens

El max_tokens valor se deduce de la cuota al principio de cada solicitud. Si alcanzas las cuotas de TPM antes de lo esperado, intenta reducirlas max_tokens para aproximarte mejor al tamaño de las finalizaciones.

Los siguientes escenarios ofrecen ejemplos de cómo habrían funcionado las deducciones de cuota en las solicitudes completadas si se hubiera utilizado un modelo que tuviera una tasa de agotamiento de 5 veces para los tokens de salida:

Suponga los siguientes parámetros:

  • InputTokenCount: 3.000

  • CacheReadInputTokens: 4.000

  • CacheWriteInputTokens: 1.000

  • OutputTokenCount: 1.000

  • max_tokens: 32.000

Se realizan las siguientes deducciones de cuota:

  • Deducción inicial cuando se hace la solicitud: 40 000 (= 3000 + 4000 + 1000 + 32 000)

  • Deducción final ajustada una vez generada la respuesta: 9000 (= 3000 + 1000 + 1000 x 5)

En este escenario, se podían realizar menos solicitudes simultáneas porque el max_tokens parámetro estaba establecido en un nivel demasiado alto. Esto reduce la simultaneidad de las solicitudes, el rendimiento y la utilización de la cuota, ya que la capacidad de la cuota del TPM se alcanzaría rápidamente.

Suponga los siguientes parámetros:

  • InputTokenCount: 3.000

  • CacheReadInputTokens: 4.000

  • CacheWriteInputTokens: 1.000

  • OutputTokenCount: 1.000

  • número máximo de fichas: 1250

Se realizan las siguientes deducciones de cuota:

  • Deducción inicial cuando se hace la solicitud: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)

  • Deducción final ajustada una vez generada la respuesta: 9000 (= 3000 + 1000 + 1000 x 5)

En este escenario, el max_tokens parámetro se optimizó, ya que la deducción inicial es solo ligeramente superior a la deducción ajustada final. Esto ayudó a aumentar la simultaneidad de las solicitudes, el rendimiento y la utilización de las cuotas.

Optimización del parámetro max_tokens

Al optimizar el max_tokens parámetro, puede utilizar de manera eficiente la capacidad de cuota asignada. Para ayudarte a tomar una decisión sobre este parámetro, puedes usar Amazon CloudWatch, que recopila automáticamente las métricas de AWS los servicios, incluidos los datos de uso de los tokens en Amazon Bedrock.

Los tokens se registran en las métricas de OutputTokenCount tiempo de ejecución InputTokenCount y de ejecución (para obtener más información, consulteMétricas en tiempo de ejecución de Amazon Bedrock.

Para utilizar la CloudWatch supervisión como base para tomar una decisión sobre el max_tokens parámetro, haga lo siguiente en AWS Management Console:

  1. Inicia sesión en la CloudWatch consola de Amazon en https://console.aws.amazon.com/cloudwatch.

  2. En el panel de navegación izquierdo, selecciona Paneles de control.

  3. Seleccione la pestaña Paneles automáticos.

  4. Seleccione Bedrock.

  5. En el panel de control Recuentos de fichas por modelo, seleccione el icono de expansión.

  6. Seleccione un tiempo, duración y parámetros de rango para que las métricas tengan en cuenta los picos de uso.

  7. En el menú desplegable denominado Suma, puedes elegir diferentes métricas para observar tu uso de los tokens. Examine estas métricas para guiar su decisión a la hora de establecer su max_tokens valor.