Otimizar a inferência do modelo para latência - Amazon Bedrock

Otimizar a inferência do modelo para latência

nota

O recurso de inferência com latência otimizada está em versão prévia para o Amazon Bedrock e está sujeito a alterações.

A inferência otimizada para latência em modelos de base do Amazon Bedrock oferece tempos de resposta mais rápidos e melhor capacidade de resposta para aplicações de IA. As versões otimizadas dos modelos Amazon Nova Pro, Claude 3.5 Haiku da Anthropic e Llama 3.1 405B e 70B da Meta oferecem latência significativamente reduzida sem comprometer a precisão.

O acesso ao recurso de otimização de latência não requer configuração adicional nem ajuste fino do modelo, permitindo o aprimoramento imediato das aplicações existentes com tempos de resposta mais rápidos. Você pode definir o parâmetro “latency” como “optimized” ao chamar a API de runtime do Amazon Bedrock. Se você selecionar “standard” como opção de invocação, suas solicitações serão atendidas pela inferência padrão. Por padrão, todas as solicitações são encaminhadas com “standard”.

"performanceConfig" : { "latency" : "standard | optimized" }

Quando você atingir a cota de uso para otimização de latência de um modelo, tentaremos atender à solicitação com latência padrão. Nesses casos, a solicitação será cobrada de acordo com as taxas de latência padrão. A configuração de latência de uma solicitação atendida é visível na resposta da API e nos logs do AWS CloudTrail. Também é possível visualizar métricas para solicitações otimizadas para latência nos logs do Amazon CloudWatch em “model-id+latency-optimized”.

A inferência otimizada para latência está disponível no Llama 3.1 70B e 405B da Meta, bem como no Claude 3.5 Haiku da Anthropic nas regiões Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da inferência entre regiões.

A inferência otimizada para latência está disponível no Amazon Nova Pro nas regiões Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da inferência entre regiões.

Para ter mais informações sobre preços, consulte a página de preços.

nota

No momento, a inferência otimizada para latência no Llama 3.1 405B permite solicitações com contagem total de tokens de entrada e saída de até 11 mil. Para solicitações com um número maior de tokens, voltaremos para o modo padrão.

Fornecedor Modelo Regiões em que é possível usar perfil de inferência
Amazon Nova Pro

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct

us-east-2

Meta Llama 3.1 70B Instruct

us-east-2

us-west-2