Optimización de la inferencia del modelo para la latencia - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Optimización de la inferencia del modelo para la latencia

nota

La función de inferencia optimizada para la latencia se encuentra en versión preliminar Amazon Bedrock y está sujeta a cambios.

La inferencia optimizada con latencia para los modelos básicos Amazon Bedrock ofrece tiempos de respuesta más rápidos y una capacidad de respuesta mejorada para las aplicaciones de IA. Las versiones optimizadas de Amazon Nova Pro, el modelo Haiku Claude 3.5 de Anthropic y los modelos Llama 3.1 405B y 70B de Meta ofrecen una latencia significativamente reducida sin comprometer la precisión.

El acceso a la capacidad de optimización de la latencia no requiere una configuración adicional ni el refinamiento del modelo, lo que permite mejorar inmediatamente las aplicaciones existentes con tiempos de respuesta más rápidos. Puede establecer el parámetro “Latency” en “optimized” al llamar a la API en tiempo de ejecución de Amazon Bedrock. Si selecciona “standard” como opción de invocación, sus solicitudes se atenderán con una inferencia estándar. De forma predeterminada, todas las solicitudes se envían a través de la opción “standard”.

"performanceConfig" : { "latency" : "standard | optimized" }

Cuando alcance la cuota de uso para la optimización de la latencia de un modelo, intentaremos atender la solicitud con una latencia estándar. En esos casos, la solicitud se cobrará según las tarifas de latencia estándar. La configuración de latencia de una solicitud atendida está visible en las respuestas y los registros de la API. AWS CloudTrail También puedes ver las métricas de las solicitudes optimizadas para la latencia en los Amazon CloudWatch registros, en la sección «model-id+latency-optimization».

La inferencia optimizada para latencia está disponible para los modelos Llama 3.1 70B y 405B de Meta, así como para el modelo Haiku Claude 3.5 de Anthropic, en las regiones Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.

La inferencia optimizada para latencia está disponible para Amazon Nova Pro en las regiones Este de EE. UU (Norte de Virginia), Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.

Para obtener más información sobre los precios, consulte la página de precios.

nota

Actualmente, la inferencia optimizada para latencia de Llama 3.1 405B admite solicitudes con un número total de tokens de entrada y salida de hasta 11 000. Las solicitudes con mayor cantidad de tokens se revertirán al modo estándar.

En la siguiente tabla se muestran los perfiles de inferencia que admiten la optimización de la latencia:

Proveedor Modelo ID del modelo Compatibilidad con perfiles de inferencia entre regiones
Amazon Nova Pro amazon. nova-pro-v1:0

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku anthropic.claude-3-5-haiku-20241022-v1:0

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct metal.llama3-1-405 1:0 b-instruct-v

us-east-2

Meta Llama 3.1 70B Instruct b-instruct-vmeta.llama3-1-70 1:0

us-east-2

us-west-2

Para obtener más información sobre los perfiles de inferencia, consulte Regiones y modelos compatibles con los perfiles de inferencia.