Cuotas para Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cuotas para Amazon Bedrock

Tienes Cuenta de AWS cuotas predeterminadas, anteriormente denominadas límites, para Amazon Bedrock. Para ver las cuotas de servicio de Amazon Bedrock, realice una de las siguientes acciones:

Para mantener el rendimiento del servicio y garantizar un uso adecuado de Amazon Bedrock, las cuotas predeterminadas asignadas a una cuenta pueden actualizarse en función de factores regionales, el historial de pagos, el uso fraudulento o la and/or aprobación de una solicitud de aumento de cuota.

nota

Para mantener el rendimiento y garantizar un uso adecuado de Amazon Bedrock, AWS limite el uso de acuerdo con las cuotas de su cuenta para solicitudes por minuto (RPM), fichas por minuto (TPM) y fichas por día (TPD). El límite predeterminado de fichas por día es de 24 x 60 fichas por minuto. Sin embargo, las nuevas cuotas de fichas por día se Cuentas de AWS han reducido. Puedes solicitar un aumento de cuota tal y como se describe en la siguiente sección.

Para ver los límites de tokens por día de su cuenta, seleccione Amazon Bedrock en la página AWS Management Console Service Quotas y busque «Model invoation max token per day for $ {MODEL}».

Solicitud de un aumento de las cuotas de Amazon Bedrock

Los pasos para solicitar un aumento de cuota para su cuenta dependen del valor de la columna Ajustable de la tabla de cuotas de servicio de Amazon Bedrock:

  • Si una cuota está marcada como , puede ajustarla siguiendo los pasos de la Guía del usuario sobre cómo solicitar un aumento de cuota en la Guía del usuario de Service Quotas.

  • Para cualquier modelo, puede solicitar un aumento de las siguientes cuotas juntas:

    • InvokeModel Tokens interregionales por minuto para ${model}

    • InvokeModel Solicitudes entre regiones por minuto para ${model}

    • InvokeModel Tokens a pedido por minuto para ${model}

    • InvokeModel Solicitudes bajo demanda por minuto para ${model}

    • Modele el máximo de tokens de invocación por día para ${model}

    Para solicitar un aumento de cualquier combinación de estas cuotas, solicita un aumento de los InvokeModel tokens por minuto de ${model} cuota entre regiones siguiendo los pasos que se indican en Solicitar un aumento de cuota en la Guía del usuario de Service Quotas. Cuando lo hagas, el equipo de asistencia se pondrá en contacto contigo y te ofrecerá la opción de aumentar también las otras cuatro cuotas.

    nota

    Debido a la abrumadora demanda, se dará prioridad a los clientes que generen tráfico que consuma la cuota que tienen asignada. La solicitud se denegará si no cumple esta condición.

Tasa de consumo de fichas para AnthropicClaude 4 modelos

Cuotas de inferencia para modelos con tasas de agotamiento de fichas no estándar.

Las cuotas de inferencia del modelo Amazon Bedrock se miden en dos dimensiones: RPM (solicitudes por minuto) y TPM (fichas por minuto). Las cuotas se pueden alcanzar en cualquiera de las dimensiones, en función de lo que ocurra primero.

La tasa de agotamiento es una relación que convierte las fichas de entrada y salida en cuotas simbólicas utilizadas por el sistema de regulación. Esta relación representa la velocidad a la que los tokens de entrada y salida se tienen en cuenta para las cuotas de fichas.

La mayoría de los modelos tienen una tasa de agotamiento de 1 token por 1 token de entrada o 1 token de salida, excepto en Anthropic Claude 4 modelos. Consulta las siguientes tablas para ver las Anthropic Claude 4 tasas de consumo. Para obtener más información sobre el uso y los precios de los tokens en Amazon Bedrock, consulte Amazon Bedrock Pricing.

Cuando recibimos tu solicitud, utilizamos el max_tokens valor especificado en la solicitud a la API para estimar la reducción de la producción en relación con las cuotas de tokens. Al completar la solicitud, ajustamos la reducción de la producción al uso real. Para evitar una limitación prematura, selecciona un max_tokens valor cercano a los tokens de producción esperados.

Modele tasas de agotamiento no estándar de los tokens

Modelo

Token de entrada

Token de salida

Claude Opus 4

1 token por token de entrada

5 fichas por ficha de salida

Claude Sonnet 4

1 token por token de entrada

5 fichas por ficha de salida