Nível reservado Nível prioritário Nível padrão Nível flexível Usando o recurso de nível de serviço

Níveis de serviço para otimizar o desempenho e o custo

O Amazon Bedrock oferece quatro níveis de serviço para inferência de modelos: Reservado, Prioritário, Padrão e Flex. Com os níveis de serviço, você pode otimizar a disponibilidade, o custo e o desempenho.

Nível reservado

O nível Reservado oferece a capacidade de reservar capacidade computacional priorizada para seus aplicativos de missão crítica que não toleram nenhum tempo de inatividade. Você tem a flexibilidade de alocar diferentes capacidades de tokens de entrada e saída por minuto para atender aos requisitos exatos de sua carga de trabalho e de controle de custos. Quando seu aplicativo precisa de mais tokens por minuto do que a que você reservou, o serviço transborda automaticamente para o nível Standard, garantindo operações ininterruptas. O nível reservado visa 99,5% de tempo de atividade para resposta do modelo. Os clientes podem reservar capacidade por 1 mês ou 3 meses de duração. Os clientes pagam um preço fixo por 1.000 tokens por minuto e são cobrados mensalmente.

O nível Reservado tem os seguintes requisitos mínimos de capacidade:

Número mínimo de tokens de entrada por minuto (TPM): 100.000
Tokens de saída mínimos por minuto (TPM): 10.000

Para obter acesso ao nível reservado, entre em contato com a equipe da sua conta da AWS.

Importante

Ao dimensionar sua capacidade de nível reservado, observe que seu consumo de tokens por minuto inclui e. InputTokenCount CacheWriteInputTokens Se você usa o cache imediato, você deve somar as duas métricas na Amazon CloudWatch para estimar com precisão a reserva necessária. Para obter mais informações sobre como os tokens são contabilizados em sua cota, consulteNoções básicas sobre o gerenciamento de cotas de tokens.

nota

O faturamento continua até que você exclua a reserva de nível reservado com a ajuda do seu Conta da AWS gerente.

Nível prioritário

O nível Priority oferece os tempos de resposta mais rápidos com um preço mais alto do que o preço padrão sob demanda. É mais adequado para aplicativos de missão crítica com fluxos de trabalho de negócios voltados para o cliente que não garantem reserva de capacidade 24 horas por dia, 7 dias por semana. O nível prioritário não exige reserva prévia. Você pode simplesmente definir o parâmetro opcional “service_tier” como “priority” para aproveitar a priorização no nível da solicitação. As solicitações de nível prioritário são priorizadas em relação às solicitações de nível Standard e Flex.

Nível padrão

O nível Standard fornece desempenho consistente para tarefas diárias de IA, como geração de conteúdo, análise de texto e processamento rotineiro de documentos. Por padrão, todas as solicitações de inferência são roteadas para o nível Padrão quando o parâmetro “service_tier” está ausente. Você também pode definir o parâmetro opcional “service_tier” como “default” para que sua solicitação de inferência seja atendida com o nível Standard.

Nível flexível

Para cargas de trabalho que podem lidar com tempos de processamento mais longos, o nível Flex oferece processamento econômico com um desconto no preço. Isso ajuda você a otimizar o custo de cargas de trabalho, como avaliações de modelos, resumo de conteúdo e fluxos de trabalho agentes. Você pode definir o parâmetro opcional “service_tier” como “flex” para que sua solicitação de inferência seja atendida com o nível Flex e aproveite o desconto no preço.

Usando o recurso de nível de serviço

Para acessar a capacidade do nível de serviço, você pode definir o parâmetro opcional “service_tier” como “reservado”, “prioritário”, “padrão” ou “flexível” ao chamar a API de tempo de execução do Amazon Bedrock.


"service_tier" : "reserved | priority | default | flex"

Sua cota sob demanda para um modelo é compartilhada entre os níveis de serviço “prioritário”, “padrão” e “flexível”. Sua reserva de capacidade de nível “reservada” é separada da sua cota sob demanda. A configuração do nível de serviço para uma solicitação atendida é visível na resposta da API e nos CloudTrail eventos da AWS. Você também pode visualizar as métricas do nível de serviço no Amazon CloudWatch Metrics em ModelId ServiceTier, ResolvedServiceTier, e, onde ResolvedServiceTier mostra o nível real que atendeu às suas solicitações.

Para ter mais informações sobre preços, consulte a página de preços.

Acesse Modelos em um piscar de olhos e escolha o modelo em que você está interessado para ver qual nível de serviço esse modelo suporta.

Para controlar o acesso aos níveis de serviço, consulte Controle o acesso aos níveis de serviço

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Capacidade e desempenho

Inferência em lote