Régions et modèles pris en charge Avantages Routeurs d’invites par défaut et configurés Considérations et restrictions Critères de routeur d’invite et modèle de repli Fonctionnement du routage intelligent des invites Méthode d’utilisation du routage intelligent des invites

Compréhension du routage intelligent des invites dans Amazon Bedrock

Le routage intelligent des invites Amazon Bedrock fournit un point de terminaison sans serveur unique pour acheminer efficacement les demandes entre différents modèles de fondation au sein d’une même famille de modèles. Il peut prédire dynamiquement la qualité de réponse de chaque modèle pour chaque demande, puis acheminer la demande vers le modèle présentant la meilleure qualité de réponse. Cela permet d’optimiser à la fois la qualité et le coût de la réponse.

Rubriques

Régions et modèles pris en charge pour un routage intelligent des invites
Avantages
Routeurs d’invites par défaut et configurés
Considérations et restrictions
Critères de routeur d’invite et modèle de repli
Fonctionnement du routage intelligent des invites
Méthode d’utilisation du routage intelligent des invites

Régions et modèles pris en charge pour un routage intelligent des invites

Le routage rapide intelligent peut être utilisé avec différents types de modèles. La liste suivante décrit la prise en charge des différents types de modèles Amazon Bedrock :

Single-region support du modèle — Répertorie les régions qui prennent en charge l'envoi de demandes d'inférence à un modèle de base dans une AWS région. Pour un tableau complet des modèles disponibles sur Amazon Bedrock, consultezModèles de fondation pris en charge dans Amazon Bedrock.
Cross-region prise en charge du profil d'inférence : répertorie les régions qui prennent en charge l'utilisation d'un profil d'inférence interrégional, qui prend en charge l'envoi de demandes d'inférence à un modèle de base dans plusieurs AWS régions d'une même zone géographique. Un profil d'inférence comporte un préfixe précédant l'ID du modèle qui indique sa zone géographique (par exemple,us.,apac). Pour plus d'informations sur les profils d'inférence disponibles sur Amazon Bedrock, consultez. Régions et modèles pris en charge pour les profils d'inférence

Le tableau suivant indique les modèles pris en charge pour le routage rapide intelligent :

Fournisseur	Modèle	ID du modèle	Single-region support du modèle	Cross-region prise en charge des profils d'inférence
Amazon	Nova Lite	amazon.nova-lite-v1:0	us-east-1 us-gov-west-1	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2
Amazon	Nova Pro	amazon.nova-pro-v1:0	us-east-1 us-gov-west-1	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2
Anthropic	Claude 3 Haiku	anthropic.claude-3-haiku-20240307-v1:0	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-gov-west-1 us-west-2	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-west-2	us-east-1 us-east-2 us-west-2
Anthropic	Sonnet de Claude 3.5	anthropic.claude-3-5-sonnet-20240620-v1:0	ap-northeast-1 ap-northeast-2 eu-central-1 us-east-1 us-gov-west-1 us-west-2	ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2
Anthropic	Claude 3.5 Sonnet v2	anthropic.claude-3-5-sonnet-20241022-v2:0	ap-southeast-2 us-west-2	ap-northeast-1 ap-south-1 ap-southeast-2 eu-west-3 us-east-1 us-east-2 us-west-2
Meta	Llama 3.1 70B Instruct	meta.llama3-1-70b-instruct-v1:0	us-west-2	us-east-1 us-east-2 us-west-2
Meta	Llama 3.1 8B Instruct	meta.llama3-1-8b-instruct-v1:0	us-west-2	us-east-1 us-east-2 us-west-2
Meta	Llama 3.2 11B Instruct	meta.llama3-2-11b-instruct-v1:0	N/A	us-east-1 us-east-2 us-west-2
Meta	Llama 3.2 90B Instruct	meta.llama3-2-90b-instruct-v1:0	N/A	us-east-1 us-east-2 us-west-2
Meta	Llama 3.3 70B Instruct	meta.llama3-3-70b-instruct-v1:0	us-east-2	us-east-1 us-east-2 us-west-2

Avantages

Qualité et coût de la réponse : achemine les invites vers différents modèles de fondation pour obtenir la meilleure qualité de réponse au moindre coût.
Gestion simplifiée : élimine le besoin d’une logique d’orchestration complexe.
Future-Proof: Intègre les nouveaux modèles dès qu'ils sont disponibles.

Routeurs d’invites par défaut et configurés

Lorsque vous utilisez le routage intelligent des invites, vous pouvez soit utiliser les routeurs d’invites par défaut fournis par Amazon Bedrock, soit configurer vos propres routeurs d’invites.

Les routeurs d’invites par défaut sont des systèmes de routage préconfigurés fournis par Amazon Bedrock. Ces routeurs sont fournis avec des paramètres prédéfinis et sont conçus pour fonctionner immédiatement avec des modèles de fondation spécifiques. Ils fournissent une solution simple et prête à l’emploi sans qu’il soit nécessaire de configurer des paramètres de routage. Lorsque vous commencez avec un routage intelligent des invites, nous vous recommandons d’essayer d’utiliser les routeurs par défaut fournis par Amazon Bedrock. Lors de la prévisualisation, vous pouvez choisir d’utiliser certains modèles des familles Anthropic et Meta.

Les routeurs d’invites configurés vous permettent de définir vos propres configurations de routage adaptées à des besoins et à des préférences spécifiques. Ils sont plus adaptés lorsque vous avez besoin de plus de contrôle sur la manière d’acheminer vos demandes et les modèles à utiliser. Les routeurs configurés permettent une optimisation basée sur des métriques de qualité de réponse et des cas d’utilisation. Après avoir testé les routeurs par défaut, vous pouvez configurer vos propres routeurs adaptés à vos applications, évaluer la qualité de réponse sur le terrain de jeu et les utiliser pour les applications de production s’ils répondent aux exigences.

Considérations et restrictions

Vous trouverez ci-après des considérations et des limitations concernant le routage intelligent des invites dans Amazon Bedrock.

Le routage intelligent des invites est optimisé uniquement pour les invites en anglais.
Le routage intelligent des invites ne permet pas d’ajuster les décisions ou les réponses relatives au routage en fonction des données de performance spécifiques à l’application.
Le routage intelligent des invites peut ne pas toujours fournir le routage le plus optimal pour des cas d’utilisation uniques ou spécialisés. L’efficacité du routage dépend des données d’entraînement initiales.

Critères de routeur d’invite et modèle de repli

Lorsque vous configurez vos routeurs d’invites, vous pouvez spécifier les critères de routage, qui sont utilisés pour déterminer le modèle à sélectionner afin de traiter une demande en fonction de la différence de qualité de réponse. Utilisez ces critères pour déterminer dans quelle mesure les réponses du modèle de repli devraient être proches de celles des autres modèles.

Modèles de repli

Choisissez un modèle de repli qui répond le mieux à vos demandes. Ce modèle constitue une base de référence fiable. Vous pouvez ensuite choisir un autre modèle pour améliorer la précision ou réduire les coûts par rapport au modèle de repli. Le modèle de repli fait office d’ancrage et les critères de routage déterminent quand passer à l’autre modèle en fonction de la différence de qualité de réponse.

Différence de qualité de réponse

La différence de qualité de réponse mesure la disparité entre les réponses du modèle de repli et celles des autres modèles. Une valeur plus petite indique que les réponses sont similaires. Une valeur plus élevée indique une différence significative dans les réponses entre le modèle de repli et les autres modèles.

Par exemple, une différence de qualité de réponse de 10 % signifie que, disons que la qualité de réponse du modèle de repli, Claude Haiku3, est de 10 %, le routeur passera à un autre modèle, par exemple Claude Sonnet3, uniquement si ses réponses sont 10 % meilleures que les réponses de Claude Haiku3.

Fonctionnement du routage intelligent des invites

Sélection du modèle et configuration du routeur

Choisissez la famille de modèles que vous souhaitez utiliser pour votre application. Si vous utilisez des routeurs d’invites par défaut, vous pouvez choisir parmi les modèles des familles Anthropic ou Meta. Si vous utilisez des routeurs d’invites configurés, vous pouvez choisir parmi d’autres modèles et configurer les critères de routage. Pour de plus amples informations, veuillez consulter Méthode d’utilisation du routage intelligent des invites.
Analyse des demandes entrantes

Pour chaque demande entrante, le système analyse l’invite afin de comprendre son contenu et son contexte.
Prédiction de la qualité des réponses

Amazon Bedrock prédit la qualité de réponse de chaque modèle spécifié dans la famille choisie en fonction de l’invite. Si vous avez configuré votre routeur d’invite, il prend en compte les critères de routage, à savoir la différence de qualité de réponse, et achemine les demandes vers le modèle de repli que vous avez spécifié si les critères ne sont pas remplis.
Sélection du modèle et transmission des demandes

Sur la base de la prédiction de la qualité de réponse, Amazon Bedrock choisit de manière dynamique le modèle qui offre la meilleure combinaison de qualité de réponse et de coût pour une demande spécifique. La demande est ensuite transmise au modèle choisi pour être traitée.
Gestion des réponses

La réponse du modèle choisi est extraite et renvoyée à l’utilisateur. La réponse inclut des informations sur le modèle utilisé pour traiter la demande.

Méthode d’utilisation du routage intelligent des invites

Pour commencer à utiliser le routage rapide intelligent, utilisez la console Amazon Bedrock AWS CLI, ou AWS SDK.

Note

Pour utiliser au mieux le routage rapide intelligent, vous devez régulièrement évaluer les performances afin de tirer parti des nouveaux modèles. Pour optimiser votre utilisation, surveillez les performances disponibles et les métriques de coûts.

Les sections suivantes vous montrent comment utiliser cette fonctionnalité depuis la console et l’interface de ligne de commande. Après avoir configuré votre routeur d’invite, Amazon Bedrock exécutera les étapes décrites dans Fonctionnement du routage intelligent des invites pour générer une réponse à partir de l’un des modèles du routeur choisi.

console

Pour utiliser le routage intelligent des invites depuis la AWS Management Console :

Accédez au hub Routeurs d’invites de la console Amazon Bedrock. Utilisez vos informations d’identification AWS pour vous connecter à la console.
Choisissez la famille de modèles que vous souhaitez utiliser. Si vous utilisez la fonctionnalité pour la première fois, vous pouvez tester les routeurs d’invites par défaut. Lors de la prévisualisation, vous pouvez choisir parmi les modèles des familles Anthropic ou Meta. Vous pouvez ensuite ouvrir le terrain de jeu et expérimenter avec vos invites.

Note
Vous devez choisir exactement deux modèles au sein d’une même famille.
Après avoir testé les routeurs par défaut, vous pouvez configurer votre routeur. Vous devez fournir un nom unique pour votre routeur et une description facultative.
Définissez les règles de routage pour acheminer les invites vers différents modèles. Spécifiez les modèles de routage, les critères de routage et un modèle de repli à utiliser au cas où les critères de routage ne seraient pas remplis.
Vous pouvez maintenant ouvrir le terrain de jeu et essayer différentes invites pour surveiller les performances de votre routeur d’invite. En analysant la manière dont les invites sont acheminées et les performances de chaque modèle, vous pouvez ajuster les critères de routage et les modèles selon les besoins afin d’optimiser les performances et les coûts.

API

Pour utiliser le routage intelligent des invites à l’aide de la AWS CLI :

Après avoir expérimenté les routeurs d’invites par défaut, vous pouvez créer un routeur capable de gérer le routage intelligent des invites à l’aide de l’API CreatePromptRouter ou de la commande de la CLI create-prompt-router.

La commande suivante montre un exemple de création du routeur d’invite, où :
- <router-name>est un nom unique pour votre routeur.
- <region>est l' Région AWS endroit où vous souhaitez créer le routeur.
- <modelA>et <modelB> sont les modèles parmi lesquels choisir pour le routage. Par exemple, anthropic.claude-sonnet-4-5-20250929-v1:0.
```
aws bedrock create-prompt-router \
    --prompt-router-name <router-name> \
    --models '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelA>"}]' \ 
    --fallback-model '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelB>"}]' \ 
    --routing-criteria '{"responseQualityDifference": 0.5}'
```
Envoyez vos invites au routeur d’invite intelligent à l’aide de la AWS CLI. Le routeur prédira la qualité de réponse de chaque modèle et acheminera la demande vers le modèle présentant la meilleure qualité de réponse.
Passez en revue la réponse à votre demande. Elle contiendra des informations sur le modèle utilisé et les critères de routage.
Lorsque vous travaillez avec des routeurs d’invites, vous pouvez également utiliser les opérations d’API supplémentaires suivantes :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Qu’est-ce que l’ingénierie de requête ?

Conception d’une invite

Compréhension du routage intelligent des invites dans Amazon Bedrock

Rubriques

Régions et modèles pris en charge pour un routage intelligent des invites

Avantages

Routeurs d’invites par défaut et configurés

Considérations et restrictions

Critères de routeur d’invite et modèle de repli

Modèles de repli

Différence de qualité de réponse

Fonctionnement du routage intelligent des invites

Sélection du modèle et configuration du routeur

Analyse des demandes entrantes

Prédiction de la qualité des réponses

Sélection du modèle et transmission des demandes

Gestion des réponses

Méthode d’utilisation du routage intelligent des invites

Note

Note