

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Cuotas para Amazon Bedrock
<a name="quotas"></a>

Tienes Cuenta de AWS cuotas predeterminadas, anteriormente denominadas límites, para Amazon Bedrock. Para ver las cuotas de servicio de Amazon Bedrock, realice una de las siguientes acciones:
+ Siga los pasos que se indican en [Viewing service quotas](https://docs.aws.amazon.com/servicequotas/latest/userguide/gs-request-quota.html) y seleccione el servicio **Amazon Bedrock**.
+ Consulte [Cuotas de servicio de Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock) en la Referencia general de AWS.

La inferencia de modelos en Amazon Bedrock se controla mediante cuotas de uso de los tokens. Algunos modelos utilizan los tokens a mayor velocidad. Para obtener más información sobre la velocidad y sobre cómo optimizar el uso de los tokens, consulte [Contabilización de los tokens en Amazon Bedrock](quotas-token-burndown.md).

Para mantener el rendimiento del servicio y garantizar un uso adecuado de Amazon Bedrock, las cuotas predeterminadas asignadas a una cuenta pueden actualizarse en función de factores regionales, el historial de pagos, el uso fraudulento o la and/or aprobación de una [solicitud de aumento de cuota](quotas-increase.md).

**Topics**
+ [Contabilización de los tokens en Amazon Bedrock](quotas-token-burndown.md)
+ [Supervisión del uso de tokens contando los tokens antes de ejecutar la inferencia](count-tokens.md)
+ [Solicitud de un aumento de las cuotas de Amazon Bedrock](quotas-increase.md)

# Contabilización de los tokens en Amazon Bedrock
<a name="quotas-token-burndown"></a>

Cuando ejecuta la inferencia del modelo, hay cuotas en la cantidad de tokens que se pueden procesar en función del modelo de Amazon Bedrock que utilice. Consulte la siguiente terminología relacionada con las cuotas de tokens:


****  

| Plazo | Definición | 
| --- | --- | 
| InputTokenCount | La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens de una solicitud proporcionada como entrada al modelo. | 
| OutputTokenCount | La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens generados por el modelo en respuesta a una solicitud. | 
| CacheReadInputTokens | La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa la cantidad de tokens de entrada que se recuperaron correctamente de una memoria caché en lugar de ser reprocesados por el modelo. Este valor es 0 si no utiliza el [almacenamiento en caché de peticiones](prompt-caching.md). | 
| CacheWriteInputTokens | La métrica de tiempo de ejecución de CloudWatch Amazon Bedrock que representa el número de tokens de entrada que se escribieron correctamente en la memoria caché. Este valor es 0 si no utiliza el [almacenamiento en caché de peticiones](prompt-caching.md). | 
| Tokens por minuto (TPM) | Una cuota que se establece AWS a nivel de modelo en función del número de tokens (tanto de entrada como de salida) que puede utilizar en un minuto. | 
| Tokens por día (TPD) | Una cuota que se establece AWS a nivel de modelo en función del número de fichas (incluidas las entradas y las salidas) que puedes usar en un día. De forma predeterminada, este valor es TPM x 24 x 60. Sin embargo, las nuevas Cuentas de AWS han reducido las cuotas. | 
| Solicitudes por minuto (RPM) | Un cupo establecido AWS a nivel de modelo en función del número de solicitudes que se pueden enviar en un minuto. | 
| max\$1tokens | Un parámetro que se proporciona en la solicitud para establecer la cantidad máxima de tokens de salida que el modelo puede generar. | 
| Velocidad de consumo | La velocidad a la que los tokens de entrada y salida se convierten en uso de cuota de tokens para el sistema de limitación. | 

La tasa de agotamiento de los modelos Anthropic Claude de la versión 3.7 y posteriores es **5 veces mayor para las fichas de salida** (1 ficha de salida consume 5 fichas de tus cuotas):

En todos los demás modelos, la velocidad de consumo es de **1:1** (1 token de salida consume 1 token de su cuota).

**Topics**
+ [Administración de las cuotas de tokens](#quotas-token-burndown-management)
+ [Impacto del parámetro max\$1tokens](#quotas-token-burndown-max-tokens)
+ [Optimización del parámetro max\$1tokens](#quotas-token-burndown-max-tokens-optimize)

## Administración de las cuotas de tokens
<a name="quotas-token-burndown-management"></a>

Cuando realiza una solicitud, los tokens se deducen de sus cuotas de TPM y TPD. Los cálculos se realizan en las siguientes etapas:
+ **Al inicio de la solicitud**: suponiendo que no haya superado su cuota de RPM, se deduce la siguiente suma de sus cuotas. La solicitud se limita si supera una cuota.

  ```
  Total input tokens + max_tokens
  ```
+ **Durante el procesamiento**: la cuota consumida por la solicitud se ajusta periódicamente para tener en cuenta la cantidad real de tokens de salida generados.
+ **Al final de la solicitud:**: la cantidad total de tokens consumidos por la solicitud se calculará de la siguiente manera y los tokens no utilizados se repondrán en su cuota:

  ```
  InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
  ```

  Si no utiliza el [almacenamiento en caché de peticiones](prompt-caching.md), `CacheWriteInputTokens` será 0. Los `CacheReadInputTokens` no contribuyen a este cálculo.

**nota**  
Solo se le facturará por el uso real de sus tokens.  
Por ejemplo, si utiliza Anthropic Claude Sonnet 4 y envía una solicitud que contiene 1000 tokens de entrada y genera una respuesta equivalente a 100 tokens:  
Se repondrán **1500 tokens** (1000 \$1 100 x 5) de sus cuotas de TPM y TPD.
Solo se le facturarán **1100 tokens**.

## Impacto del parámetro max\$1tokens
<a name="quotas-token-burndown-max-tokens"></a>

El valor `max_tokens` se deduce de la cuota al principio de cada solicitud. Si alcanza las cuotas de TPM antes de lo esperado, intente reducir `max_tokens` para aproximarse mejor al tamaño de las finalizaciones.

Los siguientes escenarios ofrecen ejemplos de cómo habrían funcionado las deducciones de cuota en las solicitudes completadas si se hubiera utilizado un modelo que tuviera una velocidad de consumo de cinco veces para los tokens de salida:

### Escenario 1: valor alto de max\$1tokens
<a name="quotas-token-burndown-max-tokens-too-high"></a>

Se presupone que se utilizan los siguientes parámetros:
+ **InputTokenCount: 3.000**
+ **CacheReadInputTokens:** 4.000
+ **CacheWriteInputTokens:** 1.000
+ **OutputTokenCount:** 1.000
+ **max\$1tokens:** 32 000

Se realizan las siguientes deducciones de cuota:
+ **Deducción inicial cuando se hace la solicitud:** 40 000 (= 3000 \$1 4000 \$1 1000 \$1 32 000)
+ **Deducción final ajustada una vez generada la respuesta:** 9000 (= 3000 \$1 1000 \$1 1000 x 5)

En este escenario, se podrían realizar menos solicitudes simultáneas porque el parámetro `max_tokens` estaba establecido en un valor demasiado alto. Esto reduce la simultaneidad de las solicitudes, el rendimiento y la utilización de la cuota, ya que la capacidad de la cuota de TPM se alcanzaría rápidamente.

### Escenario 2: valor optimizado de max\$1tokens
<a name="quotas-token-burndown-max-tokens-optimized"></a>

Se presupone que se utilizan los siguientes parámetros:
+ **InputTokenCount:** 3.000
+ **CacheReadInputTokens:** 4.000
+ **CacheWriteInputTokens:** 1.000
+ **OutputTokenCount:** 1.000
+ **max\$1tokens:** 1250

Se realizan las siguientes deducciones de cuota:
+ **Deducción inicial cuando se hace la solicitud:** 9250 (= 3000 \$1 4000 \$1 1000 \$1 1250)
+ **Deducción final ajustada una vez generada la respuesta:** 9000 (= 3000 \$1 1000 \$1 1000 x 5)

En este escenario, el parámetro `max_tokens` se optimizó, ya que la deducción inicial es solo ligeramente superior a la deducción ajustada final. Esto ayudó a aumentar la simultaneidad de las solicitudes, el rendimiento y la utilización de las cuotas.

## Optimización del parámetro max\$1tokens
<a name="quotas-token-burndown-max-tokens-optimize"></a>

Al optimizar el parámetro `max_tokens`, puede utilizar de manera eficiente la capacidad de cuota asignada. Para ayudarte a tomar una decisión sobre este parámetro, puedes usar Amazon CloudWatch, que recopila automáticamente las métricas de AWS los servicios, incluidos los datos de uso de los tokens en Amazon Bedrock.

Los tokens se registran en las métricas en tiempo de ejecución `InputTokenCount` y `OutputTokenCount` (para obtener más información, consulte [Métricas en tiempo de ejecución de Amazon Bedrock](monitoring.md#runtime-cloudwatch-metrics).

Para utilizar la CloudWatch supervisión como base para tomar una decisión sobre el `max_tokens` parámetro, haga lo siguiente en: Consola de administración de AWS

1. Inicia sesión en la CloudWatch consola de Amazon en [https://console.aws.amazon.com/cloudwatch.](https://console.aws.amazon.com/cloudwatch)

1. En el panel de navegación, seleccione **Paneles**.

1. Seleccione la pestaña **Paneles automáticos**.

1. Seleccione **Bedrock**.

1. En el panel **Recuentos de tokens por modelo**, seleccione el icono de expansión.

1. Seleccione parámetros de duración temporal e intervalo para que las métricas tengan en cuenta los picos de uso.

1. En el menú desplegable **Suma**, puede elegir diferentes métricas para observar el uso de los tokens. Examine estas métricas para guiar su decisión a la hora de establecer el valor de `max_tokens`.

# Supervisión del uso de tokens contando los tokens antes de ejecutar la inferencia
<a name="count-tokens"></a>

Al realizar una inferencia de modelos, la cantidad de tokens que se envían en la entrada contribuye al costo de la solicitud y a la cuota de tokens que se pueden utilizar por minuto y día. La [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html)API le ayuda a estimar el uso de los tokens antes de enviar solicitudes a los modelos básicos al devolver el recuento de tokens que se utilizaría si se enviara la misma entrada al modelo en una solicitud de inferencia.

**nota**  
El uso de la [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html)API no conlleva cargos.

El recuento de tokens es específico de cada modelo porque los diferentes modelos utilizan diferentes estrategias de tokenización. El recuento de tokens devuelto por esta operación coincidirá con el número de tokens que se cobraría si se enviara la misma entrada al modelo para realizar la inferencia.

Puede utilizar la API `CountTokens` para hacer lo siguiente:
+ Calcular los costos antes de enviar las solicitudes de inferencia
+ Optimizar las peticiones para que se ajusten a los límites de tokens
+ Planificar el uso de los tokens en sus aplicaciones

**Topics**
+ [Modelos y regiones compatibles para el recuento de tokens](#count-tokens-supported)
+ [Recuento de tokens en una solicitud](#count-tokens-use)
+ [Ejemplo de prueba](#count-tokens-example)

## Modelos y regiones compatibles para el recuento de tokens
<a name="count-tokens-supported"></a>

En la siguiente tabla se muestra el soporte del modelo básico para el conteo de fichas:


| Proveedor | Modelo | ID del modelo | Compatibilidad con modelos de una sola región | 
| --- | --- | --- | --- | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |  us-west-2  | 
| Anthropic | Claude 3.5 Sonnet | anthropic.claude-3-5-sonnet-20240620-v1:0 |  ap-northeast-1 ap-southeast-1 eu-central-1 eu-central-2 us-east-1 us-west-2  | 
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v2:0 |  ap-southeast-2 us-west-2  | 
| Anthropic | Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v 1:0 |  eu-west-2  | 
| Anthropic | Claude Opus 4 | anthropic.claude-opus-4-20250514-v1:0 |  | 
| Anthropic | Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 |  | 

## Recuento de tokens en una solicitud
<a name="count-tokens-use"></a>

Para contar el número de tokens de entrada en una solicitud de inferencia, envíe una [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html)solicitud con un [punto de ejecución de Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-rt) y especifique el modelo en el encabezado y la entrada para la que se van a contar los tokens en el `body` campo. El valor del `body` campo depende de si está contando los tokens de entrada para una solicitud [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)o para una solicitud de [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html):
+ En el caso de una solicitud `InvokeModel`, el formato de `body` es una cadena que representa un objeto JSON cuyo formato depende del modelo que especifique.
+ En el caso de una solicitud `Converse`, el formato de `body` es un objeto JSON que especifica las peticiones `messages` y `system` incluidas en la conversación.

## Ejemplo de prueba
<a name="count-tokens-example"></a>

Los ejemplos de esta sección le permiten contar los tokens de una solicitud `InvokeModel` y `Converse` con Anthropic Claude 3 Haiku.

**Requisitos previos**
+ La has descargado AWS SDK para Python (Boto3) y la configuración está configurada de forma que tus credenciales y la AWS región predeterminada se reconozcan automáticamente.
+ Su identidad de IAM tiene permisos para las siguientes acciones (para obtener más información, consulte [Acciones, recursos y claves de condición de Amazon Bedrock](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html)):
  + bedrock: CountTokens — Permite el uso de`CountTokens`.
  + roca madre: InvokeModel — Permite el uso de `InvokeModel` y. `Converse` Debe estar limitado a*arn:\$1\$1Partition\$1:bedrock:\$1\$1Region\$1::foundation-model/anthropic.claude-3-haiku-20240307-v1:0*, como mínimo.

Para probar a contar los tokens de una [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)solicitud, ejecuta el siguiente código de Python:

```
import boto3
import json

bedrock_runtime = boto3.client("bedrock-runtime")

input_to_count = json.dumps({
    "anthropic_version": "bedrock-2023-05-31",
    "max_tokens": 500,
    "messages": [
        {
            "role": "user",
            "content": "What is the capital of France?"
        }
    ]
})

response = bedrock_runtime.count_tokens(
    modelId="anthropic.claude-3-5-haiku-20241022-v1:0",
    input={
        "invokeModel": {
            "body": input_to_count
        }
    }
)

print(response["inputTokens"])
```

Para probar el recuento de tokens para una solicitud [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html), ejecute el siguiente código de Python:

```
import boto3
import json 

bedrock_runtime = boto3.client("bedrock-runtime")

input_to_count = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of France?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "The capital of France is Paris."
                }
            ]
        },
        {
            "role": "user",
            "content": [
                {
                    "text": "What is its population?"
                }
            ]
        }
    ],
    "system": [
        {
            "text": "You're an expert in geography."
        }
    ]
}

response = bedrock_runtime.count_tokens(
    modelId="anthropic.claude-3-5-haiku-20241022-v1:0",
    input={
        "converse": input_to_count
    }
)

print(response["inputTokens"])
```

# Solicitud de un aumento de las cuotas de Amazon Bedrock
<a name="quotas-increase"></a>

Los pasos para solicitar un aumento de cuota para su cuenta dependen del valor de la columna **Ajustable** de la tabla de cuotas de [Cuotas de servicio de Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock):
+ Si una cuota está marcada como **Sí**, puede ajustarla siguiendo los pasos de [Solicitud de un aumento de cuota](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) en la Guía del usuario de Service Quotas.
+ Para cualquier modelo, puede solicitar un aumento de las cuotas siguientes:
  + Tokens de InvokeModel por minuto entre regiones para *\$1\$1model\$1*
  + Solicitudes de InvokeModel por minuto entre regiones para *\$1\$1model\$1*
  + Tokens de InvokeModel bajo demanda por minuto para *\$1\$1model\$1*
  + Solicitudes de InvokeModel bajo demanda por minuto para *\$1\$1model\$1*
  + Número máximo de tokens de invocación del modelo por día para *\$1\$1model\$1*

  Para solicitar un aumento de cualquier combinación de estas cuotas, solicite un aumento de la cuota **Tokens de InvokeModel entre regiones por minuto para *\$1\$1model\$1*** siguiendo los pasos que se indican en [Solicitud de un aumento de cuota](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) en la Guía del usuario de Service Quotas. Cuando lo haga, el equipo de soporte se pondrá en contacto con usted y le ofrecerá la opción de aumentar también las otras cuatro cuotas.
**nota**  
Debido a la abrumadora demanda, se dará prioridad a los clientes que generen tráfico que consuma la cuota que tienen asignada. La solicitud se denegará si no cumple esta condición.