Administración de las cuotas de tokens Impacto del parámetro max_tokens Optimización del parámetro max_tokens

Contabilización de los tokens en Amazon Bedrock

Cuando ejecuta la inferencia del modelo, hay cuotas en la cantidad de tokens que se pueden procesar en función del modelo de Amazon Bedrock que utilice. Consulte la siguiente terminología relacionada con las cuotas de tokens:

Plazo	Definición
`InputTokenCount`	La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa el número de tokens de entrada procesados por el modelo, excluidos los tokens en caché. Para determinar el consumo total de tokens de entrada en función de su cuota, sume. `InputTokenCount + CacheWriteInputTokens`
`OutputTokenCount`	La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens generados por el modelo en respuesta a una solicitud.
`CacheReadInputTokens`	La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens de entrada que se recuperaron correctamente de una memoria caché en lugar de ser reprocesados por el modelo. Este valor es 0 si no utiliza el almacenamiento en caché de peticiones.
`CacheWriteInputTokens`	La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa el número de tokens de entrada que se escribieron correctamente en la memoria caché. Este valor es 0 si no utiliza el almacenamiento en caché de peticiones.
Tokens por minuto (TPM)	Una cuota que se establece AWS a nivel de modelo en función del número de tokens (tanto de entrada como de salida) que puede utilizar en un minuto.
Tokens por día (TPD)	Una cuota que se establece AWS a nivel de modelo en función del número de fichas (incluidas las entradas y las salidas) que puedes usar en un día. De forma predeterminada, este valor es TPM x 24 x 60. Sin embargo, las nuevas Cuentas de AWS han reducido las cuotas.
`max_tokens`	Un parámetro que se proporciona en la solicitud para establecer la cantidad máxima de tokens de salida que el modelo puede generar.
Velocidad de consumo	La velocidad a la que los tokens de entrada y salida se convierten en uso de cuota de tokens para el sistema de limitación.

La tasa de agotamiento de los modelos Anthropic Claude de la versión 4.8 es 15 veces mayor para las fichas de salida (1 ficha de salida consume 15 fichas de tus cuotas). Para todos los demás modelos Anthropic, versión 3.7 y posteriores, la reducción es 5 veces mayor para las fichas de salida (1 ficha de salida consume 5 fichas de tus cuotas).

En todos los demás modelos, la velocidad de consumo es de 1:1 (1 token de salida consume 1 token de su cuota).

Administración de las cuotas de tokens

Cuando realiza una solicitud, los tokens se deducen de sus cuotas de TPM y TPD. Los cálculos se realizan en las siguientes etapas:

Al inicio de la solicitud: la siguiente suma se deduce de tus cuotas. La solicitud se limita si supera una cuota.
```
Total input tokens + max_tokens
```
Durante el procesamiento: la cuota consumida por la solicitud se ajusta periódicamente para tener en cuenta la cantidad real de tokens de salida generados.
Al final de la solicitud:: la cantidad total de tokens consumidos por la solicitud se calculará de la siguiente manera y los tokens no utilizados se repondrán en su cuota:
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
CacheReadInputTokensno contribuyen a este cálculo y no se tienen en cuenta para tu cuota. Si no utilizas el almacenamiento rápido en caché, ambos CacheWriteInputTokens y CacheReadInputTokens serán 0.

nota

Solo se le facturará por el uso real de sus tokens.

Por ejemplo, si utiliza Anthropic Claude Sonnet 4 y envía una solicitud que contiene 1000 tokens de entrada y genera una respuesta equivalente a 100 tokens:

Se repondrán 1500 tokens (1000 + 100 x 5) de sus cuotas de TPM y TPD.
Solo se le facturarán 1100 tokens.

Impacto del parámetro max_tokens

El valor max_tokens se deduce de la cuota al principio de cada solicitud. Si alcanza las cuotas de TPM antes de lo esperado, intente reducir max_tokens para aproximarse mejor al tamaño de las finalizaciones.

Los siguientes escenarios ofrecen ejemplos de cómo habrían funcionado las deducciones de cuota en las solicitudes completadas si se hubiera utilizado un modelo que tuviera una velocidad de consumo de cinco veces para los tokens de salida:

Se presupone que se utilizan los siguientes parámetros:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
max_tokens: 32 000

Se realizan las siguientes deducciones de cuota:

Deducción inicial cuando se solicita: 36 000 (= 3000 + 1000 + 32 000)
Deducción final ajustada una vez generada la respuesta: 9000 (= 3000 + 1000 + 1000 x 5)

En este escenario, se podrían realizar menos solicitudes simultáneas porque el parámetro max_tokens estaba establecido en un valor demasiado alto. Esto reduce la simultaneidad de las solicitudes, el rendimiento y el uso de la cuota, ya que la capacidad de la cuota del TPM se alcanzaría rápidamente.

Se presupone que se utilizan los siguientes parámetros:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
max_tokens: 1250

Se realizan las siguientes deducciones de cuota:

Deducción inicial cuando se solicita: 5.250 (= 3.000 + 1.000 + 1.250)
Deducción final ajustada una vez generada la respuesta: 9000 (= 3000 + 1000 + 1000 x 5)

En este escenario, el parámetro max_tokens se optimizó, ya que la deducción inicial es solo ligeramente superior a la deducción ajustada final. Esto ayudó a aumentar la simultaneidad de las solicitudes, el rendimiento y el uso de las cuotas.

Optimización del parámetro max_tokens

Al optimizar el max_tokens parámetro, puede utilizar de forma eficiente la capacidad de cuota asignada. Para ayudarte a tomar una decisión sobre este parámetro, puedes usar Amazon CloudWatch, que recopila automáticamente las métricas de AWS los servicios, incluidos los datos de uso de los tokens en Amazon Bedrock.

Los tokens se registran en las métricas en tiempo de ejecución InputTokenCount y OutputTokenCount (para obtener más información, consulte Métricas en tiempo de ejecución de Amazon Bedrock.

Para utilizar la CloudWatch supervisión como base para tomar una decisión sobre el max_tokens parámetro, haga lo siguiente en: Consola de administración de AWS

Inicia sesión en la CloudWatch consola de Amazon en https://console.aws.amazon.com/cloudwatch.
En el panel de navegación, seleccione Paneles.
Seleccione la pestaña Paneles automáticos.
Seleccione Bedrock.
En el panel Recuentos de tokens por modelo, seleccione el icono de expansión.
Seleccione parámetros de duración temporal e intervalo para que las métricas tengan en cuenta los picos de uso.
En el menú desplegable Suma, puede elegir diferentes métricas para observar el uso de los tokens. Examine estas métricas para guiar su decisión a la hora de establecer el valor de max_tokens.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cuotas

CountTokens API