Optimización de la inferencia del modelo para la latencia
nota
La característica Inferencia optimizada para latencia se encuentra en versión preliminar para Amazon Bedrock y está sujeta a cambios.
La inferencia optimizada para latencia para los modelos fundacionales de Amazon Bedrock ofrece tiempos de respuesta más rápidos y una capacidad de respuesta mejorada para las aplicaciones de IA. Las versiones optimizadas de Amazon Nova Pro, el modelo Haiku Claude 3.5 de Anthropic
El acceso a la capacidad de optimización de la latencia no requiere una configuración adicional ni el refinamiento del modelo, lo que permite mejorar inmediatamente las aplicaciones existentes con tiempos de respuesta más rápidos. Puede establecer el parámetro “Latency” en “optimized” al llamar a la API en tiempo de ejecución de Amazon Bedrock. Si selecciona “standard” como opción de invocación, sus solicitudes se atenderán con una inferencia estándar. De forma predeterminada, todas las solicitudes se envían a través de la opción “standard”.
"performanceConfig" : { "latency" : "standard | optimized" }
Cuando alcance la cuota de uso para la optimización de la latencia de un modelo, intentaremos atender la solicitud con una latencia estándar. En esos casos, la solicitud se cobrará según las tarifas de latencia estándar. La configuración de latencia de una solicitud atendida está visible en las respuestas de la API y los registros de AWS CloudTrail. También puede ver las métricas de las solicitudes optimizadas para latencia en los registros de Amazon CloudWatch en “model-id+latency-optimization”.
La inferencia optimizada para latencia está disponible para los modelos Llama 3.1 70B y 405B de Meta, así como para el modelo Haiku Claude 3.5 de Anthropic, en las regiones Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.
La inferencia optimizada para latencia está disponible para Amazon Nova Pro en las regiones Este de EE. UU (Norte de Virginia), Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón) a través de la inferencia entre regiones.
Para obtener más información sobre los precios, consulte la página de precios
nota
Actualmente, la inferencia optimizada para latencia de Llama 3.1 405B admite solicitudes con un número total de tokens de entrada y salida de hasta 11 000. Las solicitudes con mayor cantidad de tokens se revertirán al modo estándar.
| Proveedor | Modelo | Regiones que admiten el perfil de inferencia |
|---|---|---|
| Amazon | Nova Pro |
us-east-1 us-east-2 |
| Anthropic | Claude 3.5 Haiku |
us-east-2 us-west-2 |
| Meta | Llama 3.1 405B Instruct |
us-east-2 |
| Meta | Llama 3.1 70B Instruct |
us-east-2 us-west-2 |