View a markdown version of this page

Níveis de serviço para otimizar o desempenho e o custo - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Níveis de serviço para otimizar o desempenho e o custo

O Amazon Bedrock oferece quatro níveis de serviço para inferência de modelos: Reservado, Prioritário, Padrão e Flex. Com os níveis de serviço, você pode otimizar a disponibilidade, o custo e o desempenho.

Nível reservado

O nível Reservado oferece a capacidade de reservar capacidade computacional priorizada para seus aplicativos de missão crítica que não toleram nenhum tempo de inatividade. Você tem a flexibilidade de alocar diferentes tokens-per-minute capacidades de entrada e saída para atender aos requisitos exatos de sua carga de trabalho e custo de controle. Quando seu aplicativo precisa de mais tokens-per-minute capacidade do que a que você reservou, o serviço transborda automaticamente para o nível Standard, garantindo operações ininterruptas. O nível reservado tem como meta 99,5% de tempo de atividade para a resposta do modelo. Os clientes podem reservar capacidade por 1 mês ou 3 meses de duração. Os clientes pagam um preço fixo por 1K tokens-per-minute e são cobrados mensalmente.

O nível Reservado tem os seguintes requisitos mínimos de capacidade:

  • Entrada mínima tokens-per-minute (TPM): 100.000

  • Saída mínima tokens-per-minute (TPM): 10.000

Para obter acesso ao nível reservado, entre em contato com a equipe da sua conta da AWS.

nota

O faturamento continua até que você exclua a reserva do Nível Reservado com a ajuda do seu Conta da AWS gerente.

Nível prioritário

O nível Priority oferece os tempos de resposta mais rápidos com um preço mais alto do que o preço padrão sob demanda. É mais adequado para aplicativos de missão crítica com fluxos de trabalho de negócios voltados para o cliente que não garantem a reserva de capacidade 24 horas por dia, 7 dias por semana. O nível prioritário não exige reserva prévia. Você pode simplesmente definir o parâmetro opcional “service_tier” como “priority” para aproveitar a priorização no nível da solicitação. As solicitações de nível prioritário são priorizadas em relação às solicitações de nível Standard e Flex.

Nível padrão

O nível Standard fornece desempenho consistente para tarefas diárias de IA, como geração de conteúdo, análise de texto e processamento rotineiro de documentos. Por padrão, todas as solicitações de inferência são roteadas para o nível Padrão quando o parâmetro “service_tier” está ausente. Você também pode definir o parâmetro opcional “service_tier” como “default” para que sua solicitação de inferência seja atendida com o nível Standard.

Flex Tier

Para cargas de trabalho que podem lidar com tempos de processamento mais longos, o nível Flex oferece processamento econômico com um desconto no preço. Isso ajuda você a otimizar o custo de cargas de trabalho, como avaliações de modelos, resumo de conteúdo e fluxos de trabalho agentes. Você pode definir o parâmetro opcional “service_tier” como “flex” para que sua solicitação de inferência seja atendida com o nível Flex e aproveite o desconto no preço.

Usando o recurso de nível de serviço

Para acessar a capacidade do nível de serviço, você pode definir o parâmetro opcional “service_tier” como “reservado”, “prioritário”, “padrão” ou “flexível” ao chamar a API de tempo de execução do Amazon Bedrock.

"service_tier" : "reserved | priority | default | flex"

Sua cota sob demanda para um modelo é compartilhada entre os níveis de serviço “prioritário”, “padrão” e “flexível”. Sua reserva de capacidade de nível “reservada” é separada da sua cota sob demanda. A configuração do nível de serviço para uma solicitação atendida é visível na resposta da API e nos CloudTrail eventos da AWS. Você também pode visualizar as métricas do nível de serviço no Amazon CloudWatch Metrics em ModelId ServiceTier, ResolvedServiceTier, e, onde ResolvedServiceTier mostra o nível real que atendeu às suas solicitações.

Para ter mais informações sobre preços, consulte a página de preços.

Acesse Modelos em um piscar de olhos e escolha o modelo em que você está interessado para ver qual nível de serviço esse modelo suporta.

Para controlar o acesso aos níveis de serviço, consulte Controle o acesso aos níveis de serviço