

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Níveis de serviço para otimizar o desempenho e o custo
<a name="service-tiers-inference"></a>

O Amazon Bedrock oferece quatro níveis de serviço para inferência de modelos: Reservado, Prioritário, Padrão e Flex. Com os níveis de serviço, você pode otimizar a disponibilidade, o custo e o desempenho.

## Nível reservado
<a name="w2aac28b5b5"></a>

O nível Reservado oferece a capacidade de reservar capacidade computacional priorizada para seus aplicativos de missão crítica que não toleram nenhum tempo de inatividade. Você tem a flexibilidade de alocar diferentes capacidades de tokens de entrada e saída por minuto para atender aos requisitos exatos de sua carga de trabalho e de controle de custos. Quando seu aplicativo precisa de mais tokens por minuto do que a que você reservou, o serviço transborda automaticamente para o nível Standard, garantindo operações ininterruptas. O nível reservado visa 99,5% de tempo de atividade para resposta do modelo. Os clientes podem reservar capacidade por 1 mês ou 3 meses de duração. Os clientes pagam um preço fixo por 1.000 tokens por minuto e são cobrados mensalmente.

O nível Reservado tem os seguintes requisitos mínimos de capacidade:
+ **Número mínimo de tokens de entrada por minuto (TPM**): 100.000
+ **Tokens de saída mínimos por minuto (TPM**): 10.000

Para obter acesso ao nível reservado, entre em contato com a equipe da sua conta da AWS.

**Importante**  
Ao dimensionar sua capacidade de nível reservado, observe que seu consumo de tokens por minuto inclui e. `InputTokenCount` `CacheWriteInputTokens` Se você usa o [cache imediato](prompt-caching.md), você deve somar as duas métricas na Amazon CloudWatch para estimar com precisão a reserva necessária. Para obter mais informações sobre como os tokens são contabilizados em sua cota, consulte[Noções básicas sobre o gerenciamento de cotas de tokens](quotas-token-burndown.md#quotas-token-burndown-management).

**nota**  
O faturamento continua até que você exclua a reserva de nível reservado com a ajuda do seu Conta da AWS gerente.

## Nível prioritário
<a name="w2aac28b5b7"></a>

O nível Priority oferece os tempos de resposta mais rápidos com um preço mais alto do que o preço padrão sob demanda. É mais adequado para aplicativos de missão crítica com fluxos de trabalho de negócios voltados para o cliente que não garantem reserva de capacidade 24 horas por dia, 7 dias por semana. O nível prioritário não exige reserva prévia. Você pode simplesmente definir o parâmetro opcional “service\_tier” como “priority” para aproveitar a priorização no nível da solicitação. As solicitações de nível prioritário são priorizadas em relação às solicitações de nível Standard e Flex.

## Nível padrão
<a name="w2aac28b5b9"></a>

O nível Standard fornece desempenho consistente para tarefas diárias de IA, como geração de conteúdo, análise de texto e processamento rotineiro de documentos. Por padrão, todas as solicitações de inferência são roteadas para o nível Padrão quando o parâmetro “service\_tier” está ausente. Você também pode definir o parâmetro opcional “service\_tier” como “default” para que sua solicitação de inferência seja atendida com o nível Standard.

## Nível flexível
<a name="w2aac28b5c11"></a>

Para cargas de trabalho que podem lidar com tempos de processamento mais longos, o nível Flex oferece processamento econômico com um desconto no preço. Isso ajuda você a otimizar o custo de cargas de trabalho, como avaliações de modelos, resumo de conteúdo e fluxos de trabalho agentes. Você pode definir o parâmetro opcional “service\_tier” como “flex” para que sua solicitação de inferência seja atendida com o nível Flex e aproveite o desconto no preço.

## Usando o recurso de nível de serviço
<a name="w2aac28b5c13"></a>

Para acessar a capacidade do nível de serviço, você pode definir o parâmetro opcional “service\_tier” como “reservado”, “prioritário”, “padrão” ou “flexível” ao chamar a API de tempo de execução do Amazon Bedrock.

```
"service_tier" : "reserved | priority | default | flex"
```

Sua cota sob demanda para um modelo é compartilhada entre os níveis de serviço “prioritário”, “padrão” e “flexível”. Sua reserva de capacidade de nível “reservada” é separada da sua cota sob demanda. A configuração do nível de serviço para uma solicitação atendida é visível na resposta da API e nos CloudTrail eventos da AWS. Você também pode visualizar as métricas do nível de serviço no Amazon CloudWatch Metrics em ModelId ServiceTier, ResolvedServiceTier, e, onde ResolvedServiceTier mostra o nível real que atendeu às suas solicitações.

Para ter mais informações sobre preços, consulte a [página de preços](https://aws.amazon.com/bedrock/pricing/).

Acesse [Modelos em um piscar](model-cards.md) de olhos e escolha o modelo em que você está interessado para ver qual nível de serviço esse modelo suporta.

Para controlar o acesso aos níveis de serviço, consulte [Controle o acesso aos níveis de serviço](security_iam_id-based-policy-examples-agent.md#security_iam_id-based-policy-examples-service-tiers)