Otimizar a inferência do modelo para latência - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Otimizar a inferência do modelo para latência

nota

O recurso de inferência otimizada para latência está em versão prévia Amazon Bedrock e está sujeito a alterações.

A inferência otimizada para latência para modelos básicos Amazon Bedrock oferece tempos de resposta mais rápidos e melhor capacidade de resposta para aplicativos de IA. As versões otimizadas dos modelos Amazon Nova Pro, Claude 3.5 Haiku da Anthropic e Llama 3.1 405B e 70B da Meta oferecem latência significativamente reduzida sem comprometer a precisão.

O acesso ao recurso de otimização de latência não requer configuração adicional nem ajuste fino do modelo, permitindo o aprimoramento imediato das aplicações existentes com tempos de resposta mais rápidos. Você pode definir o parâmetro “latency” como “optimized” ao chamar a API de runtime do Amazon Bedrock. Se você selecionar “standard” como opção de invocação, suas solicitações serão atendidas pela inferência padrão. Por padrão, todas as solicitações são encaminhadas com “standard”.

"performanceConfig" : { "latency" : "standard | optimized" }

Quando você atingir a cota de uso para otimização de latência de um modelo, tentaremos atender à solicitação com latência padrão. Nesses casos, a solicitação será cobrada de acordo com as taxas de latência padrão. A configuração de latência de uma solicitação atendida é visível na resposta e nos AWS CloudTrail registros da API. Você também pode visualizar métricas para solicitações otimizadas para latência nos Amazon CloudWatch registros em “model-id+latency-optimization”.

A inferência otimizada para latência está disponível no Llama 3.1 70B e 405B da Meta, bem como no Claude 3.5 Haiku da Anthropic nas regiões Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da inferência entre regiões.

A inferência otimizada para latência está disponível no Amazon Nova Pro nas regiões Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da inferência entre regiões.

Para ter mais informações sobre preços, consulte a página de preços.

nota

No momento, a inferência otimizada para latência no Llama 3.1 405B permite solicitações com contagem total de tokens de entrada e saída de até 11 mil. Para solicitações com um número maior de tokens, voltaremos para o modo padrão.

A tabela a seguir mostra os perfis de inferência que oferecem suporte à otimização da latência:

Fornecedor Modelo ID do modelo Suporte ao perfil de inferência entre regiões
Amazon Nova Pro amazônia. nova-pro-v1:0

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku anthropic.claude-3-5-haiku-20241022-v1:0

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct meta.llama3-1-405 1:0 b-instruct-v

us-east-2

Meta Llama 3.1 70B Instruct meta.llama3-1-70 1:0 b-instruct-v

us-east-2

us-west-2

Para obter mais informações sobre perfis de inferência, consulte Regiões e modelos que compatíveis com perfis de inferência.