Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Compréhension du routage intelligent des invites dans Amazon Bedrock
Le routage intelligent des invites Amazon Bedrock fournit un point de terminaison sans serveur unique pour acheminer efficacement les demandes entre différents modèles de fondation au sein d’une même famille de modèles. Il peut prédire dynamiquement la qualité de réponse de chaque modèle pour chaque demande, puis acheminer la demande vers le modèle présentant la meilleure qualité de réponse. Cela permet d’optimiser à la fois la qualité et le coût de la réponse.
Régions et modèles pris en charge pour un routage intelligent des invites
Le routage rapide intelligent peut être utilisé avec différents types de modèles. La liste suivante décrit la prise en charge des différents types de modèles Amazon Bedrock :
Support des modèles à région unique : répertorie les régions qui prennent en charge l'envoi de demandes d'inférence à un modèle de base dans une AWS région. Pour un tableau complet des modèles disponibles sur Amazon Bedrock, consultezModèles de fondation pris en charge dans Amazon Bedrock.
Prise en charge des profils d'inférence interrégionaux : répertorie les régions qui prennent en charge l'utilisation d'un profil d'inférence interrégional, qui prend en charge l'envoi de demandes d'inférence à un modèle de base dans plusieurs AWS régions d'une même zone géographique. Un profil d'inférence comporte un préfixe précédant l'ID du modèle qui indique sa zone géographique (par exemple,
us.,apac). Pour plus d'informations sur les profils d'inférence disponibles sur Amazon Bedrock, consultez. Régions et modèles pris en charge pour les profils d'inférence
Le tableau suivant indique les modèles pris en charge pour le routage rapide intelligent :
| Fournisseur | Modèle | ID du modèle | Support du modèle à région unique | Support des profils d'inférence interrégionaux |
|---|---|---|---|---|
| Amazon | Nova Lite | amazon. nova-lite-v1:0 |
us-east-1 us-gov-west-1 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2 |
| Amazon | Nova Pro | amazon. nova-pro-v1:0 |
us-east-1 us-gov-west-1 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2 |
| Anthropic | Claude 3 Haiku | anthropic.claude-3-haiku-20240307-v1:0 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-gov-west-1 us-west-2 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2 |
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Anthropic | Sonnet de Claude 3.5 | anthropic.claude-3-5-sonnet-20240620-v1:0 |
ap-northeast-1 ap-northeast-2 eu-central-1 us-east-1 us-gov-west-1 us-west-2 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2 |
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v2:0 |
ap-southeast-2 us-west-2 |
ap-northeast-1 ap-south-1 ap-southeast-2 eu-west-3 us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70 1:0 b-instruct-v |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.1 8B Instruct | meta.llama3-1-8 1:0 b-instruct-v |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.2 11B Instruct | meta.llama3-2-11 1:0 b-instruct-v | N/A |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.2 90B Instruct | meta.llama3-2-90 1:0 b-instruct-v | N/A |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.3 70B Instruct | meta.llama3-3-70 1:0 b-instruct-v |
us-east-2 |
us-east-1 us-east-2 us-west-2 |
Avantages
-
Qualité et coût de la réponse : achemine les invites vers différents modèles de fondation pour obtenir la meilleure qualité de réponse au moindre coût.
-
Gestion simplifiée : élimine le besoin d’une logique d’orchestration complexe.
-
À l’épreuve du temps : intègre les nouveaux modèles dès qu’ils sont disponibles.
Routeurs d’invites par défaut et configurés
Lorsque vous utilisez le routage intelligent des invites, vous pouvez soit utiliser les routeurs d’invites par défaut fournis par Amazon Bedrock, soit configurer vos propres routeurs d’invites.
Les routeurs d’invites par défaut sont des systèmes de routage préconfigurés fournis par Amazon Bedrock. Ces routeurs sont fournis avec des paramètres prédéfinis et sont conçus pour fonctionner out-of-the-box avec des modèles de base spécifiques. Ils fournissent une ready-to-use solution simple sans qu'il soit nécessaire de configurer de paramètres de routage. Lorsque vous commencez avec un routage intelligent des invites, nous vous recommandons d’essayer d’utiliser les routeurs par défaut fournis par Amazon Bedrock. Lors de la prévisualisation, vous pouvez choisir d’utiliser certains modèles des familles Anthropic et Meta.
Les routeurs d’invites configurés vous permettent de définir vos propres configurations de routage adaptées à des besoins et à des préférences spécifiques. Ils sont plus adaptés lorsque vous avez besoin de plus de contrôle sur la manière d’acheminer vos demandes et les modèles à utiliser. Les routeurs configurés permettent une optimisation basée sur des métriques de qualité de réponse et des cas d’utilisation. Après avoir testé les routeurs par défaut, vous pouvez configurer vos propres routeurs adaptés à vos applications, évaluer la qualité de réponse sur le terrain de jeu et les utiliser pour les applications de production s’ils répondent aux exigences.
Considérations et restrictions
Vous trouverez ci-après des considérations et des limitations concernant le routage intelligent des invites dans Amazon Bedrock.
-
Le routage intelligent des invites est optimisé uniquement pour les invites en anglais.
-
Le routage intelligent des invites ne permet pas d’ajuster les décisions ou les réponses relatives au routage en fonction des données de performance spécifiques à l’application.
-
Le routage intelligent des invites peut ne pas toujours fournir le routage le plus optimal pour des cas d’utilisation uniques ou spécialisés. L’efficacité du routage dépend des données d’entraînement initiales.
Critères de routeur d’invite et modèle de repli
Lorsque vous configurez vos routeurs d’invites, vous pouvez spécifier les critères de routage, qui sont utilisés pour déterminer le modèle à sélectionner afin de traiter une demande en fonction de la différence de qualité de réponse. Utilisez ces critères pour déterminer dans quelle mesure les réponses du modèle de repli devraient être proches de celles des autres modèles.
Modèles de repli
Choisissez un modèle de repli qui répond le mieux à vos demandes. Ce modèle constitue une base de référence fiable. Vous pouvez ensuite choisir un autre modèle pour améliorer la précision ou réduire les coûts par rapport au modèle de repli. Le modèle de repli fait office d’ancrage et les critères de routage déterminent quand passer à l’autre modèle en fonction de la différence de qualité de réponse.
Différence de qualité de réponse
La différence de qualité de réponse mesure la disparité entre les réponses du modèle de repli et celles des autres modèles. Une valeur plus petite indique que les réponses sont similaires. Une valeur plus élevée indique une différence significative dans les réponses entre le modèle de repli et les autres modèles.
Par exemple, une différence de qualité de réponse de 10 % signifie que, disons que la qualité de réponse du modèle de repli, Claude Haiku3, est de 10 %, le routeur passera à un autre modèle, par exemple Claude Sonnet3, uniquement si ses réponses sont 10 % meilleures que les réponses de Claude Haiku3.
Fonctionnement du routage intelligent des invites
-
Sélection du modèle et configuration du routeur
Choisissez la famille de modèles que vous souhaitez utiliser pour votre application. Si vous utilisez des routeurs d’invites par défaut, vous pouvez choisir parmi les modèles des familles Anthropic ou Meta. Si vous utilisez des routeurs d’invites configurés, vous pouvez choisir parmi d’autres modèles et configurer les critères de routage. Pour de plus amples informations, veuillez consulter Méthode d’utilisation du routage intelligent des invites.
-
Analyse des demandes entrantes
Pour chaque demande entrante, le système analyse l’invite afin de comprendre son contenu et son contexte.
-
Prédiction de la qualité des réponses
Amazon Bedrock prédit la qualité de réponse de chaque modèle spécifié dans la famille choisie en fonction de l’invite. Si vous avez configuré votre routeur d’invite, il prend en compte les critères de routage, à savoir la différence de qualité de réponse, et achemine les demandes vers le modèle de repli que vous avez spécifié si les critères ne sont pas remplis.
-
Sélection du modèle et transmission des demandes
Sur la base de la prédiction de la qualité de réponse, Amazon Bedrock choisit de manière dynamique le modèle qui offre la meilleure combinaison de qualité de réponse et de coût pour une demande spécifique. La demande est ensuite transmise au modèle choisi pour être traitée.
-
Gestion des réponses
La réponse du modèle choisi est extraite et renvoyée à l’utilisateur. La réponse inclut des informations sur le modèle utilisé pour traiter la demande.
Méthode d’utilisation du routage intelligent des invites
Pour commencer à utiliser le routage rapide intelligent, utilisez la console Amazon BedrockAWS CLI, ou AWS SDK.
Note
Pour tirer le meilleur parti du routage intelligent des invites, vous devez régulièrement évaluer les performances afin de tirer parti des nouveaux modèles. Pour optimiser votre utilisation, surveillez les performances disponibles et les métriques de coûts.
Les sections suivantes vous montrent comment utiliser cette fonctionnalité depuis la console et l’interface de ligne de commande. Après avoir configuré votre routeur d’invite, Amazon Bedrock exécutera les étapes décrites dans Fonctionnement du routage intelligent des invites pour générer une réponse à partir de l’un des modèles du routeur choisi.