Optimización de la inferencia del modelo para la latencia - Amazon Bedrock

Optimización de la inferencia del modelo para la latencia

nota

La característica Inferencia optimizada para latencia se encuentra en versión preliminar para Amazon Bedrock y está sujeta a cambios.

La inferencia optimizada para latencia para los modelos fundacionales de Amazon Bedrock ofrece tiempos de respuesta más rápidos y una capacidad de respuesta mejorada para las aplicaciones de IA. Las versiones optimizadas de Amazon Nova Pro, el modelo Haiku Claude 3.5 de Anthropic y los modelos Llama 3.1 405B y 70B de Meta ofrecen una latencia significativamente reducida sin comprometer la precisión.

El acceso a la capacidad de optimización de la latencia no requiere una configuración adicional ni el refinamiento del modelo, lo que permite mejorar inmediatamente las aplicaciones existentes con tiempos de respuesta más rápidos. Puede establecer el parámetro “Latency” en “optimized” al llamar a la API en tiempo de ejecución de Amazon Bedrock. Si selecciona “standard” como opción de invocación, sus solicitudes se atenderán con una inferencia estándar. De forma predeterminada, todas las solicitudes se envían a través de la opción “standard”.

"performanceConfig" : { "latency" : "standard | optimized" }

Cuando alcance la cuota de uso para la optimización de la latencia de un modelo, intentaremos atender la solicitud con una latencia estándar. En esos casos, la solicitud se cobrará según las tarifas de latencia estándar. La configuración de latencia de una solicitud atendida está visible en las respuestas de la API y los registros de AWS CloudTrail. También puede ver las métricas de las solicitudes optimizadas para latencia en los registros de Amazon CloudWatch en “model-id+latency-optimization”.

La inferencia optimizada para latencia está disponible para los modelos Llama 3.1 70B y 405B de Meta, así como para el modelo Haiku Claude 3.5 de Anthropic, en las regiones Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.

La inferencia optimizada para latencia está disponible para Amazon Nova Pro en las regiones Este de EE. UU (Norte de Virginia), Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.

Para obtener más información sobre los precios, consulte la página de precios.

nota

Actualmente, la inferencia optimizada para latencia de Llama 3.1 405B admite solicitudes con un número total de tokens de entrada y salida de hasta 11 000. Las solicitudes con mayor cantidad de tokens se revertirán al modo estándar.

Proveedor Modelo Regiones que admiten el perfil de inferencia
Amazon Nova Pro

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct

us-east-2

Meta Llama 3.1 70B Instruct

us-east-2

us-west-2