Optimización de la inferencia del modelo para la latencia

nota

La función de inferencia optimizada para la latencia se encuentra en una versión preliminar Amazon Bedrock y está sujeta a cambios.

La inferencia optimizada con latencia para los modelos básicos Amazon Bedrock ofrece tiempos de respuesta más rápidos y una capacidad de respuesta mejorada para las aplicaciones de IA. Las versiones optimizadas de Amazon Nova Pro, el modelo Haiku Claude 3.5 de Anthropic y los modelos Llama 3.1 405B y 70B de Meta ofrecen una latencia significativamente reducida sin comprometer la precisión.

El acceso a la capacidad de optimización de la latencia no requiere una configuración adicional ni el refinamiento del modelo, lo que permite mejorar inmediatamente las aplicaciones existentes con tiempos de respuesta más rápidos. Puede establecer el parámetro “Latency” en “optimized” al llamar a la API en tiempo de ejecución de Amazon Bedrock. Si selecciona “standard” como opción de invocación, sus solicitudes se atenderán con una inferencia estándar. De forma predeterminada, todas las solicitudes se envían a través de la opción “standard”.


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

Cuando alcance la cuota de uso para la optimización de la latencia de un modelo, intentaremos atender la solicitud con una latencia estándar. En esos casos, la solicitud se cobrará según las tarifas de latencia estándar. La configuración de latencia de una solicitud atendida está visible en las respuestas y los registros de la API. AWS CloudTrail También puedes ver las métricas de las solicitudes optimizadas para la latencia en los Amazon CloudWatch registros, en la sección «model-id+latency-optimization».

La inferencia optimizada para latencia está disponible para los modelos Llama 3.1 70B y 405B de Meta, así como para el modelo Haiku Claude 3.5 de Anthropic, en las regiones Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.

La inferencia optimizada para latencia está disponible para Amazon Nova Pro en las regiones Este de EE. UU (Norte de Virginia), Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.

Para obtener más información sobre los precios, consulte la página de precios.

nota

Actualmente, la inferencia optimizada para latencia de Llama 3.1 405B admite solicitudes con un número total de tokens de entrada y salida de hasta 11 000. Las solicitudes con mayor cantidad de tokens se revertirán al modo estándar.

En la siguiente tabla se muestran los perfiles de inferencia que admiten la optimización de la latencia:

Proveedor	Modelo	ID del modelo	Compatibilidad con perfiles de inferencia entre regiones
Amazon	Nova Pro	amazon. nova-pro-v1:0	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	metal.llama3-1-405 1:0 b-instruct-v	us-east-2
Meta	Llama 3.1 70B Instruct	b-instruct-vmeta.llama3-1-70 1:0	us-east-2 us-west-2

Para obtener más información sobre los perfiles de inferencia, consulte Regiones y modelos compatibles con los perfiles de inferencia.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Razonamiento de inferencia

Inferencia mediante OpenAI APIs