Níveis de serviço para otimizar o desempenho e o custo - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Níveis de serviço para otimizar o desempenho e o custo

O Amazon Bedrock oferece quatro níveis de serviço para inferência de modelos: Reservado, Prioritário, Padrão e Flex. Com os níveis de serviço, você pode otimizar a disponibilidade, o custo e o desempenho.

Nível reservado

O nível Reservado oferece a capacidade de reservar capacidade computacional priorizada para seus aplicativos de missão crítica que não toleram nenhum tempo de inatividade. Você tem a flexibilidade de alocar diferentes tokens-per-minute capacidades de entrada e saída para atender aos requisitos exatos de sua carga de trabalho e custo de controle. Quando seu aplicativo precisa de mais tokens-per-minute capacidade do que a que você reservou, o serviço transborda automaticamente para o nível Standard, garantindo operações ininterruptas. O nível reservado tem como meta 99,5% de tempo de atividade para a resposta do modelo. Os clientes podem reservar capacidade por 1 mês ou 3 meses de duração. Os clientes pagam um preço fixo por 1K tokens-per-minute e são cobrados mensalmente.

Para obter acesso ao nível reservado, entre em contato com a equipe da sua conta da AWS.

Nível prioritário

O nível Priority oferece os tempos de resposta mais rápidos com um preço mais alto do que o preço padrão sob demanda. É mais adequado para aplicativos de missão crítica com fluxos de trabalho de negócios voltados para o cliente que não garantem a reserva de capacidade 24 horas por dia, 7 dias por semana. O nível prioritário não exige reserva prévia. Você pode simplesmente definir o parâmetro opcional “service_tier” como “priority” para aproveitar a priorização no nível da solicitação. As solicitações de nível prioritário são priorizadas em relação às solicitações de nível Standard e Flex.

Nível padrão

O nível Standard fornece desempenho consistente para tarefas diárias de IA, como geração de conteúdo, análise de texto e processamento rotineiro de documentos. Por padrão, todas as solicitações de inferência são roteadas para o nível Padrão quando o parâmetro “service_tier” está ausente. Você também pode definir o parâmetro opcional “service_tier” como “default” para que sua solicitação de inferência seja atendida com o nível Standard.

Nível flexível

Para cargas de trabalho que podem lidar com tempos de processamento mais longos, o nível Flex oferece processamento econômico com um desconto no preço. Isso ajuda você a otimizar o custo de cargas de trabalho, como avaliações de modelos, resumo de conteúdo e fluxos de trabalho agentes. Você pode definir o parâmetro opcional “service_tier” como “flex” para que sua solicitação de inferência seja atendida com o nível Flex e aproveite o desconto no preço.

Usando o recurso de nível de serviço

Para acessar a capacidade do nível de serviço, você pode definir o parâmetro opcional “service_tier” como “reservado”, “prioritário”, “padrão” ou “flexível” ao chamar a API de tempo de execução do Amazon Bedrock.

"service_tier" : "reserved | priority | default | flex"

Sua cota sob demanda para um modelo é compartilhada entre os níveis de serviço “prioritário”, “padrão” e “flexível”. Sua reserva de capacidade de nível “reservada” é separada da sua cota sob demanda. A configuração do nível de serviço para uma solicitação atendida é visível na resposta da API e nos CloudTrail eventos da AWS. Você também pode visualizar as métricas do nível de serviço no Amazon CloudWatch Metrics em ModelId ServiceTier, ResolvedServiceTier, e, onde ResolvedServiceTier mostra o nível real que atendeu às suas solicitações.

Para ter mais informações sobre preços, consulte a página de preços.

Modelos e regiões compatíveis com o nível de serviço reservado:

Provedor Modelo Modelo IDs Regiões
Anthropic Claude Sonnet 4.5

global.anthropic.claude-sonnet-4-5-20250929-v 1:0

us.anthropic.claude-sonnet-4-5-20250929-v 1:0

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-southeast-1
ap-southeast-2
ap-south-1
ap-southeast-3
ap-south-2
ap-southeast-4
ca-central-1
Europa-oeste-1
Europa-Central-1
Europa-Central-2
Europa-norte-1
Europa-Sul-1
Europa-Sul-2
Europa-oeste-2
Europa-Oeste-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2
nota

O comprimento de contexto de 1M para o Sonnet 4.5 não é suportado pelo nível reservado.

Modelos e regiões compatíveis com os níveis de serviço Priority e Flex:

Provedor Modelo ID do modelo Regiões
OpenAI gpt-oss-120b openai.gpt-oss-120b-1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI gpt-oss-20b openai.gpt-oss-20b-1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI GPT OSS Safeguard 20B openai. gpt-oss-safeguard-20b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
OpenAI GPT OSS Safeguard 120B openai. gpt-oss-safeguard-120b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qen3 235B A2B 2507 qwen.qwen3-235b-a22b-2507-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-2
Qwen Instrução do codificador Qwen3 480B A35B codificador qwen.qwen3-480b-a35b-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Qwen Codificador Qwen3-30B-A3B Instruct qwen.qwen3-coder-30b-a3b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 32B (denso) qwen.qwen3-32b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 Next 80B A3B qwen.qwen3-next-80b-a3b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qwen3 VL 235B A22B qwen.qwen3-vl-235b-a22b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
DeepSeek DeepSeek-V3.1 deepseek.v3-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Amazon Nova Premier amazônia. nova-premier-v1:0 us-east-1*
us-east-2*
us-west-2*
Amazon Nova Pro amazônia. nova-pro-v1:0 us-east-1
us-east-2*
nós-oeste-1*
us-west-2*
ap-leste-2*
ap-nordeste-1*
ap-nordeste-2*
ap-south-1*
ap-sudeste-1*
ap-southeast-2
ap-southeast-3
ap-sudeste-4*
ap-sudeste-5*
ap-sudeste-7*
eu-central-1*
eu-norte-1*
eu-sul-1*
eu-sul-2*
eu-west-1*
eu-west-2
eu-west-3*
il-central-1*
me-central-1
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Prévia do Nova 2 Pro amazon.nova-2-pro-preview-20251202-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Nova Lite 2 Omni amazon.nova-2- 1 lite-omni-v ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Google Gemma 3 4B google.gemma-3-4b-it ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3 12B google.gemma-3-12b-pt ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3 27B google.gemma-3-27b-pt ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
IA Minimax Minimax M2 minimax.minimax-m2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Magistral Small 1.2 mistral.magistral-small-2509 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Mini 1.0 mistral.voxtral-mini-3b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Small 1.0 mistral.voxtral-small-24b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 3B 3.0 instrução mistral.ministral-3-3b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 8B 3.0 instrução mistral.ministral-3-8b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministerial 14B 3.0 mistral.ministral-3-14b-instruction ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Mistral Large 3 mistral.mistral-large-3-675b-instruction ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Kimi AI Kimi K2 Pensando moonshot.kimi-k2-thinking ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Nemotron Nano 2 nvidia.nemotron-nano-9b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Nemotron Nano 2 VL nvidia.nemotron-nano-12b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2

*A inferência do modelo pode ser fornecida usando várias regiões.

Para controlar o acesso aos níveis de serviço, consulte Controle o acesso aos níveis de serviço