Niveles de servicio para optimizar el rendimiento y los costes - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Niveles de servicio para optimizar el rendimiento y los costes

Amazon Bedrock ofrece cuatro niveles de servicio para la inferencia de modelos: reservado, prioritario, estándar y flexible. Con los niveles de servicio, puede optimizar la disponibilidad, el costo y el rendimiento.

Nivel reservado

El nivel reservado ofrece la posibilidad de reservar la capacidad informática priorizada para las aplicaciones de misión crítica que no pueden tolerar ningún tiempo de inactividad. Tiene la flexibilidad de asignar diferentes tokens-per-minute capacidades de entrada y salida para adaptarse a los requisitos exactos de su carga de trabajo y controlar los costes. Cuando su aplicación necesita más tokens-per-minute capacidad de la que ha reservado, el servicio pasa automáticamente al nivel estándar, lo que garantiza un funcionamiento ininterrumpido. El nivel reservado prevé un tiempo de actividad del 99,5% para la respuesta del modelo. Los clientes pueden reservar capacidad durante 1 o 3 meses. Los clientes pagan un precio fijo por cada 1000€ tokens-per-minute y se les factura mensualmente.

Para obtener acceso a la capa reservada, póngase en contacto con el equipo de su cuenta de AWS.

Nivel de prioridad

El nivel de prioridad ofrece los tiempos de respuesta más rápidos a un precio superior al precio estándar bajo demanda. Es ideal para aplicaciones de misión crítica con flujos de trabajo empresariales orientados al cliente que no garantizan una reserva de capacidad las 24 horas del día, los 7 días de la semana. El nivel de prioridad no requiere reserva previa. Simplemente puede establecer el parámetro opcional «service_tier» en «priority» para aprovechar la priorización a nivel de solicitud. Las solicitudes de nivel prioritario tienen prioridad sobre las solicitudes de nivel estándar y flexible.

Nivel estándar

El nivel estándar proporciona un rendimiento uniforme para las tareas diarias de IA, como la generación de contenido, el análisis de texto y el procesamiento rutinario de documentos. De forma predeterminada, todas las solicitudes de inferencia se envían al nivel estándar cuando falta el parámetro «service_tier». También puede configurar el parámetro opcional «service_tier» como «predeterminado» para que su solicitud de inferencia se atienda con el nivel estándar.

Nivel flexible

Para las cargas de trabajo que pueden gestionar tiempos de procesamiento más prolongados, el nivel Flex ofrece un procesamiento rentable con un descuento en el precio. Esto le ayuda a optimizar los costes de las cargas de trabajo, como las evaluaciones de modelos, el resumen de contenido y los flujos de trabajo de los agentes. Puede configurar el parámetro opcional «service_tier» en «flex» para que su solicitud de inferencia se atienda con el nivel Flex y aprovechar el descuento en el precio.

Uso de la capacidad del nivel de servicio

Para acceder a la capacidad del nivel de servicio, puede configurar el parámetro opcional «service_tier» en «reservado», «prioritario», «predeterminado» o «flexible» mientras llama a la API de tiempo de ejecución de Amazon Bedrock.

"service_tier" : "reserved | priority | default | flex"

La cuota bajo demanda de un modelo se comparte entre los niveles de servicio «prioritario», «predeterminado» y «flexible». La reserva de capacidad del nivel «reservado» es independiente de la cuota bajo demanda. La configuración del nivel de servicio de una solicitud atendida está visible en la respuesta de la API y en CloudTrail los eventos de AWS. También puedes ver las métricas del nivel de servicio en Amazon CloudWatch Metrics en ModelId ServiceTier, y ResolvedServiceTier, donde se ResolvedServiceTier muestra el nivel real que atendió tus solicitudes.

Para obtener más información sobre los precios, consulte la página de precios.

Modelos y regiones compatibles con el nivel de servicio reservado:

Proveedor Model Model IDs Regiones
Anthropic Claude Sonnet 4.5

global.anthropic.claude-sonnet-4-5-20250929-v 1:0

us.anthropic.claude-sonnet-4-5-20250929-v 1:0

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-southeast-1
ap-southeast-2
ap-south-1
ap-southeast-3
ap-south-2
ap-southeast-4
ca-central-1
Europa-west-1
Europa-central-1
Europa-central-2
Europa-Norte-1
Europa-Sur-1
Europa-Sur-2
Europa-oeste-2
Europa-oeste-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2
nota

El nivel reservado no admite una longitud de contexto de 1 millón para el Sonnet 4.5.

Modelos y regiones compatibles con los niveles de servicio Priority y Flex:

Proveedor Model ID del modelo Regiones
OpenAI gpt-oss-120b openai.gpt-oss-120b- 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI gpt-oss-20b openai.gpt-oss-20b-1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI GPT OSS Safeguard 20B openai. gpt-oss-safeguard-20b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
OpenAI GPT OSS Safeguard 120B openai. gpt-oss-safeguard-120b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qwen3 235 B A2 B 2507 qwen.qwen3-235b-a22b-2507-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-2
Qwen Codificador Qwen3 480B A35B Instruct qwen.qwen3-codificador-480b-a35b-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Qwen Codificador Qwen 3-30B-A3B-Instruct qwen.qwen3-coder-30b-a3b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 32B (denso) qwen.qwen3-32b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 Next 80B A3B qwen.qwen3-next-80b-a3b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qwen3 VL 235B A2B qwen.qwen3-vl-235b-a22b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
DeepSeek DeepSeek-V3.1 deepseek.v3-v1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Amazon Nova Premier amazona. nova-premier-v1:0 us-east-1*
us-east-2*
us-west-2*
Amazon Nova Pro amazon. nova-pro-v1:0 us-east-1
us-east-2*
EE. UU.-Oest-1*
us-west-2*
ap-east-2*
ap-nordeste-1*
ap-northeast-2*
ap-south-1*
ap-sudeste-1*
ap-southeast-2
ap-southeast-3
ap-sudeste-4*
ap-southeast-5*
ap-southeast-7*
eu-central-1*
eu-norte-1*
eu-sur-1*
eu-sur-2*
eu-west-1*
eu-west-2
eu-west-3*
il central-1*
me-central-1
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Vista previa de Nova 2 Pro amazon.nova-2-pro-preview-20251202-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Nova Lite 2 Omni amazon.nova-2- 1 lite-omni-v ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Google Gemma 3 4B google.gemma-3-4b-it ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3 12B google.gemma-3-12b-it ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3 27B google.gemma-3-27b-it ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
IA Minimax Minimax M2 mínimax.minimax-m2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Magistral Small 1.2 mistral.magistral-small-2509 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Mini 1.0 mistral.voxtral-mini-3b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Small 1.0 mistral.voxtral-pequeño-24b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 3B 3.0 mistral.ministral-3-3b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 8B 3.0 mistral.ministral-3-8b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 14B 3.0 mistral.ministral-3-14b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Mistral Large 3 mistral.mistral-large 3-675b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Kimi AI Kimi K2 Pensando moonshot.kimi-k2-thinking ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Nemotron Nano 2 nvidia.nemotron-nano-9b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Nemotron Nano 2 VL nvidia.nemotron-nano-12b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2

* La inferencia de modelos se puede realizar utilizando varias regiones.

Para controlar el acceso a los niveles de servicio, consulte Controle el acceso a los niveles de servicio