Regiones y modelos admitidos Ventajas Enrutadores de peticiones predeterminados y configurados Consideraciones y limitaciones Criterios de enrutadores de peticiones y modelo alternativo Funcionamiento del enrutamiento inteligente de peticiones Uso del enrutamiento inteligente de peticiones

Enrutamiento de peticiones inteligente en Amazon Bedrock

El enrutamiento inteligente de peticiones de Amazon Bedrock proporciona un único punto de conexión sin servidor para enrutar de manera eficiente las solicitudes entre diferentes modelos fundacionales dentro de la misma familia de modelos. Puede predecir dinámicamente la calidad de respuesta de cada modelo para cada solicitud y, a continuación, dirigir la solicitud al modelo con la mejor calidad de respuesta. Esto ayuda a optimizar tanto la calidad como el costo de la respuesta.

Temas

Regiones y modelos compatibles con el enrutamiento inteligente de peticiones
Ventajas
Enrutadores de peticiones predeterminados y configurados
Consideraciones y limitaciones
Criterios de enrutadores de peticiones y modelo alternativo
Funcionamiento del enrutamiento inteligente de peticiones
Uso del enrutamiento inteligente de peticiones

Regiones y modelos compatibles con el enrutamiento inteligente de peticiones

El enrutamiento rápido inteligente se puede utilizar con diferentes tipos de modelos. En la siguiente lista se describe la compatibilidad con distintos tipos de modelos de Amazon Bedrock:

Single-region soporte de modelos: enumera las regiones que admiten el envío de solicitudes de inferencia a un modelo básico de una AWS región. Para ver una tabla completa de los modelos disponibles en Amazon Bedrock, consulteModelos fundacionales compatibles en Amazon Bedrock.
Cross-region Compatibilidad con perfiles de inferencia: enumera las regiones que admiten el uso de un perfil de inferencia entre regiones, lo que permite enviar solicitudes de inferencia a un modelo básico en varias AWS regiones de un área geográfica. Un perfil de inferencia tiene un prefijo antes del ID del modelo que indica su área geográfica (por ejemplo,,). us. apac Para obtener más información sobre los perfiles de inferencia disponibles en Amazon Bedrock, consulte. Regiones y modelos compatibles con los perfiles de inferencia

En la siguiente tabla se muestran los modelos compatibles con el enrutamiento rápido inteligente:

Proveedor	Modelo	ID del modelo	Single-region soporte de modelos	Cross-region soporte de perfiles de inferencia
Amazon	Nova Lite	amazon.nova-lite-v1:0	us-east-1 us-gov-west-1	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2
Amazon	Nova Pro	amazon.nova-pro-v1:0	us-east-1 us-gov-west-1	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2
Anthropic	Claude 3 Haiku	anthropic.claude-3-haiku-20240307-v1:0	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-gov-west-1 us-west-2	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-west-2	us-east-1 us-east-2 us-west-2
Anthropic	Claude 3.5 Sonnet	anthropic.claude-3-5-sonnet-20240620-v1:0	ap-northeast-1 ap-northeast-2 eu-central-1 us-east-1 us-gov-west-1 us-west-2	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2
Anthropic	Claude 3.5 Sonnet v2	anthropic.claude-3-5-sonnet-20241022-v2:0	ap-southeast-2 us-west-2	ap-northeast-1 ap-south-1 ap-southeast-2 eu-west-3 us-east-1 us-east-2 us-west-2
Meta	Llama 3.1 70B Instruct	meta.llama3-1-70b-instruct-v1:0	us-west-2	us-east-1 us-east-2 us-west-2
Meta	Llama 3.1 8B Instruct	meta.llama3-1-8b-instruct-v1:0	us-west-2	us-east-1 us-east-2 us-west-2
Meta	Llama 3.2 11B Instruct	meta.llama3-2-11b-instruct-v1:0	N/A	us-east-1 us-east-2 us-west-2
Meta	Llama 3.2 90B Instruct	meta.llama3-2-90b-instruct-v1:0	N/A	us-east-1 us-east-2 us-west-2
Meta	Llama 3.3 70B Instruct	meta.llama3-3-70b-instruct-v1:0	us-east-2	us-east-1 us-east-2 us-west-2

Ventajas

Calidad y costo de respuesta optimizados: dirige las peticiones a diferentes modelos fundacionales para lograr la mejor calidad de respuesta al menor costo.
Administración simplificada: elimina la necesidad de una lógica de orquestación compleja.
Future-Proof: Incorpora nuevos modelos a medida que estén disponibles.

Enrutadores de peticiones predeterminados y configurados

Cuando utilice el enrutamiento inteligente de peticiones, puede utilizar los enrutadores de peticiones predeterminados que proporciona Amazon Bedrock o configurar sus propios enrutadores de peticiones.

Los enrutadores de peticiones predeterminados son sistemas de enrutamiento preconfigurados proporcionados por Amazon Bedrock. Estos enrutadores vienen con configuraciones predefinidas y están diseñados para funcionar de forma inmediata con modelos fundacionales específicos. Proporcionan una solución sencilla y lista para usar sin necesidad de configurar ajustes de enrutamiento. Al empezar a trabajar con el enrutamiento inteligente de peticiones, le recomendamos que pruebe los enrutadores predeterminados que proporciona Amazon Bedrock. Durante la vista previa, puede optar por utilizar modelos seleccionados de las familias Anthropic y Meta.

Los enrutadores de peticiones configurados le permiten definir sus propias configuraciones de enrutamiento adaptadas a necesidades y preferencias específicas. Son más adecuados cuando se necesita más control sobre cómo enrutar las solicitudes y los modelos que se van a utilizar. Los enrutadores configurados permiten la optimización en función de las métricas de calidad de la respuesta y los casos de uso. Tras experimentar con los enrutadores predeterminados, puede configurar los suyos propios para que se adapten a sus aplicaciones, evaluar la calidad de la respuesta en el entorno de pruebas y utilizarlos en aplicaciones de producción si cumplen los requisitos.

Consideraciones y limitaciones

A continuación, se indican las consideraciones y las limitaciones del enrutamiento inteligente de peticiones en Amazon Bedrock.

El enrutamiento inteligente de peticiones solo está optimizado para las peticiones en inglés.
El enrutamiento inteligente de peticiones no puede ajustar las decisiones o respuestas de enrutamiento en función de los datos de rendimiento específicos de la aplicación.
Es posible que el enrutamiento inteligente de peticiones no siempre proporcione el enrutamiento óptimo para casos de uso únicos o especializados. La eficacia del enrutamiento depende de los datos de entrenamiento iniciales.

Criterios de enrutadores de peticiones y modelo alternativo

Al configurar los enrutadores de peticiones, puede especificar los criterios de enrutamiento, que se utilizan para determinar qué modelo se debe seleccionar para procesar una solicitud en función de la diferencia de calidad de la respuesta. Utilice este criterio para determinar lo cerca que deben estar las respuestas del modelo alternativo de las respuestas de los demás modelos.

Modelos alternativos

Elija un modelo alternativo que funcione bien para las solicitudes. Este modelo sirve como un referencia fiable. A continuación, puede elegir otro modelo para mejorar la precisión o reducir los costos en comparación con el modelo alternativo. El modelo alternativo actúa como ancla y los criterios de enrutamiento determinan cuándo cambiar al otro modelo en función de las diferencias de calidad de la respuesta.

Diferencia en la calidad de la respuesta

La diferencia en la calidad de la respuesta mide la disparidad entre las respuestas del modelo alternativo y las de los demás modelos. Un valor pequeño indica que las respuestas son similares. Un valor alto indica una diferencia significativa en las respuestas entre el modelo alternativo y los demás modelos.

Por ejemplo, una diferencia de calidad de respuesta del 10 % significa que, por ejemplo, la calidad de respuesta del modelo alternativo, Claude Haiku3, es del 10 %; entonces el enrutador cambiará a otro modelo, por ejemplo Claude Sonnet3, solo si sus respuestas son un 10 % mejores que las de Claude Haiku3.

Funcionamiento del enrutamiento inteligente de peticiones

Selección del modelo y configuración del enrutador

Elija la familia de modelos que desea utilizar para su aplicación. Si utiliza enrutadores de peticiones predeterminados, puede elegir entre los modelos de las familias Anthropic o Meta. Si utiliza enrutadores de peticiones configurados, puede elegir entre modelos adicionales y configurar los criterios de enrutamiento. Para obtener más información, consulte Uso del enrutamiento inteligente de peticiones.
Análisis de solicitudes entrantes

Para cada solicitud entrante, el sistema analiza la petición para comprender su contenido y contexto.
Predicción de la calidad de la respuesta

Amazon Bedrock predice la calidad de respuesta de cada modelo especificado de la familia elegida en función de la petición. Si configuró un enrutador de peticiones, este tendrá en cuenta los criterios de enrutamiento, que son la diferencia en la calidad de la respuesta, y dirigirá las solicitudes al modelo alternativo especificado si no se cumplen los criterios.
Selección del modelo y reenvío de solicitudes

En función de la predicción de la calidad de la respuesta, Amazon Bedrock elige de forma dinámica el modelo que ofrece la mejor combinación de calidad de respuesta y costo para la solicitud específica. A continuación, la solicitud se reenvía al modelo elegido para su procesamiento.
Tratamiento de respuestas

La respuesta del modelo elegido se recupera y se devuelve al usuario. La respuesta incluye información sobre el modelo que se utilizó para procesar la solicitud.

Uso del enrutamiento inteligente de peticiones

Para empezar a utilizar el enrutamiento rápido inteligente, utilice la consola o AWS SDK de Amazon Bedrock. AWS CLI

nota

Para aprovechar al máximo el enrutamiento rápido inteligente, debe revisar periódicamente el rendimiento para aprovechar las ventajas de los nuevos modelos. Para optimizar su uso, supervise las métricas de rendimiento y costo disponibles.

En las siguientes secciones, se muestra cómo utilizar esta característica desde la consola y la CLI. Tras configurar el enrutador de peticiones, Amazon Bedrock realizará los pasos descritos en Funcionamiento del enrutamiento inteligente de peticiones para generar una respuesta de uno de los modelos del enrutador elegido.

console

Cómo usar el enrutamiento inteligente de peticiones desde la Consola de administración de AWS:

Vaya al centro Enrutadores de peticiones de la consola de Amazon Bedrock. Utilice sus credenciales de AWS para iniciar sesión en la consola.
Elija la familia de modelos que desea utilizar. Si es la primera vez que usa la característica, puede experimentar con los enrutadores de peticiones predeterminados. Durante la vista previa, puede elegir modelos de las familias Anthropic y Meta. A continuación, puede abrir el entorno de pruebas y experimentar con sus peticiones.

nota
Debe elegir exactamente dos modelos de la misma familia.
Una vez que haya experimentado con los enrutadores predeterminados, puede configurar su enrutador. Debe proporcionar un nombre exclusivo para su enrutador y una descripción (opcional).
Defina las reglas de enrutamiento para enrutar las peticiones a diferentes modelos. Especifique los modelos de enrutamiento, los criterios de enrutamiento y el modelo alternativo que se utilizará en caso de que no se cumplan los criterios de enrutamiento.
Ahora puede abrir el entorno de pruebas y probar diferentes peticiones para supervisar el rendimiento de su enrutador de peticiones. Al analizar cómo se enrutan las peticiones y el rendimiento de cada modelo, puede ajustar los criterios y modelos de enrutamiento según sea necesario para optimizar el rendimiento y el costo.

API

Cómo usar el enrutamiento inteligente de peticiones con la AWS CLI:

Después de experimentar con los enrutadores de peticiones predeterminados, puede crear un enrutador que pueda gestionar el enrutamiento inteligente de peticiones mediante la API CreatePromptRouter o el comando create-prompt-router de la CLI.

El comando siguiente muestra un ejemplo de creación del enrutador de peticiones, donde:
- <router-name>es un nombre exclusivo para su router.
- <region>es el Región de AWS lugar en el que desea crear el router.
- <modelA>y <modelB> son los modelos entre los que puede elegir para el enrutamiento. Por ejemplo, anthropic.claude-sonnet-4-5-20250929-v1:0.
```
aws bedrock create-prompt-router \
    --prompt-router-name <router-name> \
    --models '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelA>"}]' \ 
    --fallback-model '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelB>"}]' \ 
    --routing-criteria '{"responseQualityDifference": 0.5}'
```
Envíe sus peticiones al enrutador inteligente de peticiones mediante la AWS CLI. El enrutador predecirá la calidad de respuesta de cada modelo y dirigirá la solicitud al modelo con la mejor calidad de respuesta.
Revise la respuesta a su solicitud. Contendrá información sobre el modelo que se utilizó y los criterios de enrutamiento.
Al trabajar con enrutadores de peticiones, también puede utilizar estas operaciones de la API adicionales:

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

¿Qué es la ingeniería de peticiones?

Diseño de una petición

Enrutamiento de peticiones inteligente en Amazon Bedrock

Temas

Regiones y modelos compatibles con el enrutamiento inteligente de peticiones

Ventajas

Enrutadores de peticiones predeterminados y configurados

Consideraciones y limitaciones

Criterios de enrutadores de peticiones y modelo alternativo

Modelos alternativos

Diferencia en la calidad de la respuesta

Funcionamiento del enrutamiento inteligente de peticiones

Selección del modelo y configuración del enrutador

Análisis de solicitudes entrantes

Predicción de la calidad de la respuesta

Selección del modelo y reenvío de solicitudes

Tratamiento de respuestas

Uso del enrutamiento inteligente de peticiones

nota

nota