As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Otimize a inferência do modelo para latência
nota
O recurso de inferência otimizada para latência está em versão prévia Amazon Bedrock e está sujeito a alterações.
A inferência otimizada para latência para modelos básicos Amazon Bedrock oferece tempos de resposta mais rápidos e melhor capacidade de resposta para aplicativos de IA. As versões otimizadas do Amazon Nova Promodelo Claude 3.5 Haiku da Anthropic e dos modelos
O acesso ao recurso de otimização da latência não requer configuração adicional ou ajuste fino do modelo, permitindo o aprimoramento imediato dos aplicativos existentes com tempos de resposta mais rápidos. Você pode definir o parâmetro “Latência” como “otimizado” ao chamar a API de tempo de execução do Amazon Bedrock. Se você selecionar “padrão” como opção de invocação, suas solicitações serão atendidas por inferência padrão. Por padrão, todas as solicitações são encaminhadas para o “padrão”.
"performanceConfig" : { "latency" : "standard | optimized" }
Quando você atingir a cota de uso para otimização da latência de um modelo, tentaremos atender à solicitação com latência padrão. Nesses casos, a solicitação será cobrada de acordo com as taxas de latência padrão. A configuração de latência de uma solicitação atendida é visível na resposta e nos AWS CloudTrail registros da API. Você também pode visualizar métricas para solicitações otimizadas para latência nos Amazon CloudWatch registros em “model-id+latency-optimization”.
Para obter mais informações sobre preços, acesse a página de preços
nota
A inferência de latência otimizada para o Llama 3.1 405B atualmente suporta solicitações com contagem total de tokens de entrada e saída de até 11K. Para solicitações de maior contagem de tokens, voltaremos ao modo padrão.
Provedor | Modelo | Regiões que suportam o perfil de inferência |
---|---|---|
Amazon | Nova Pro |
us-east-1 us-east-2 |
Anthropic | Claude 3.5 Haiku |
us-east-2 us-west-2 |
Meta | Llama 3.1 405B Instruct |
us-east-2 |
Meta | Llama 3.1 70B Instruct |
us-east-2 us-west-2 |