Fonctionnement de l’inférence dans Amazon Bedrock
Lorsque vous soumettez une entrée à un modèle, celui-ci prédit une séquence probable de jetons qui suit et renvoie cette séquence en sortie. Amazon Bedrock vous permet d’exécuter l’inférence avec le modèle de fondation de votre choix. Lorsque vous exécutez une inférence, vous devez fournir les entrées suivantes :
-
Invite : entrée fournie au modèle afin qu’il génère une réponse. Pour en savoir plus sur la création d’invites, consultez Concepts d’ingénierie de requête. Pour plus d’informations sur la protection contre les injections d’invite, consultez Sécurité d’injection d’invite.
-
Modèle : vous demandez à un modèle d’exécuter une inférence à une invite. Le modèle que vous choisissez spécifie également un niveau de débit, qui définit le nombre et le débit de jetons d’entrée et de sortie que vous pouvez traiter. Vous pouvez envoyer des demandes aux types de modèles suivants :
-
Modèle de base : modèle de fondation avec lequel exécuter l’inférence. Les demandes sont envoyées à une seule région AWS. Pour les ID de modèle, consultez Modèles de fondation pris en charge dans Amazon Bedrock. Pour plus d’informations sur les modèles de fondation disponibles dans Amazon Bedrock, consultez Informations sur le modèle de fondation Amazon Bedrock.
-
Profil d’inférence : modèle de fondation avec lequel exécuter l’inférence. Les demandes sont adressées au modèle dans plusieurs régions AWS. Pour les ID de profil d’inférence, consultez Régions et modèles pris en charge pour les profils d’inférence.
Note
Les modèles diffèrent en termes de disponibilité du modèle de fondation et du profil d’inférence par région et par méthode d’API. Pour plus d’informations, consultez Modèles de fondation pris en charge dans Amazon Bedrock et les pages des modèles individuels dans la Référence des modèles de fondation.
-
Débit provisionné : modèle de fondation pour lequel vous avez acheté un débit dédié. Pour plus d’informations, consultez Débit provisionné.
-
Modèle personnalisé : modèle de fondation dont les pondérations ont été modifiées par le biais de la personnalisation du modèle. Pour plus d’informations, consultez Personnalisation de votre modèle pour améliorer ses performances en fonction de votre cas d’utilisation.
-
-
Paramètres d’inférence : ensemble de valeurs qui peuvent être ajustées pour limiter ou influencer la réponse du modèle. Pour en savoir plus sur les paramètres d’inférence, consultez Génération de réponse d’influence à l’aide de paramètres d’inférence et Paramètres de demande d’inférence et champs de réponse pour les modèles de fondation.
Invocation de modèles dans différentes régions AWS
Lorsque vous invoquez un modèle, vous choisissez la Région AWS dans laquelle vous souhaitez l’invoquer. Les quotas de fréquence et de taille des demandes que vous pouvez faire dépendent de la région. Vous pouvez trouver ces quotas en recherchant les quotas suivants dans Quotas de service Amazon Bedrock :
-
Demandes d’inférence de modèles à la demande par minute pour
${Model} -
Jetons InvokeModel à la demande par minute pour
${Model}
Vous pouvez également invoquer un profil d’inférence au lieu du modèle de fondation lui-même. Un profil d’inférence définit un modèle et une ou plusieurs régions vers lesquelles il peut acheminer les demandes d’invocation. En invoquant un profil d’inférence qui inclut plusieurs régions, vous pouvez augmenter votre débit. Pour plus d’informations, consultez Augmentez le débit grâce à l’inférence entre régions. Pour connaître les quotas relatifs à la fréquence et à la taille des demandes que vous pouvez effectuer à l’aide d’un profil d’inférence, recherchez les quotas suivants dans Quotas de service Amazon Bedrock :
-
Demandes InvokeModel interrégionales par minute pour
${Model} -
Jetons InvokeModel interrégionaux par minute pour
${Model} -
Demandes InvokeModel interrégionales globales par minute pour
${Model} -
Jetons InvokeModel interrégionaux mondiaux par minute pour
${Model}
Les demandes adressées à une région peuvent être traitées à partir de zones locales partageant la même région parente. Par exemple, les demandes adressées à USA Est (Virginie du Nord) (us-east-1) peuvent être traitées depuis n’importe quelle zone locale associée, telle qu’Atlanta, US (us-east-1-atl-2a).
Le même principe s’applique lors de l’utilisation de l’inférence interrégionale. Par exemple, les demandes adressées au profil d’inférence américain Anthropic Claude 3 Haiku peuvent être traitées depuis n’importe quelle zone locale dont la région parente est située aux États-Unis, telle que Seattle, États-Unis (us-west-2-sea-1a). Lorsque de nouvelles zones locales sont ajoutées à AWS, elles sont également ajoutées au point de terminaison d’inférence interrégional correspondant.
Pour consulter la liste des points de terminaison locaux et des régions parentes auxquelles ils sont associés, consultez Emplacements des zones locales AWS
Lorsque vous invoquez un profil d’inférence interrégional dans Amazon Bedrock, votre demande provient d’une région source et est automatiquement acheminée vers l’une des régions de destination définies dans ce profil, optimisant ainsi les performances. Les régions de destination pour le profil d’inférence interrégional global incluent toutes les régions commerciales.
Le profil d’inférence interrégional mondial pour un modèle spécifique peut changer au fil du temps, car AWS ajoute de nouvelles régions commerciales dans lesquelles vos demandes peuvent être traitées. Toutefois, si un profil d’inférence est lié à une zone géographique (par exemple les États-Unis, l’UE ou la région Asie-Pacifique), la liste de ses régions de destination ne changera jamais. AWS peut créer des profils d’inférence incorporant de nouvelles régions. Vous pouvez mettre à jour vos systèmes pour utiliser ces profils d’inférence en remplaçant les identifiants de votre configuration par les nouveaux.
Note
Les régions de destination d’un profil d’inférence interrégional peuvent inclure des régions d’adhésion, à savoir des régions que vous devez explicitement activer au niveau du Compte AWS ou de l’organisation. Pour en savoir plus, consultez Activer ou désactiver les Régions AWS dans votre compte. Lorsque vous utilisez un profil d’inférence interrégional, votre demande d’inférence peut être acheminée vers l’une des régions de destination figurant dans le profil, même si vous n’avez pas activé ces régions dans votre compte.
Les politiques de contrôle des services (SCP) et AWS Identity and Access Management (IAM) fonctionnent ensemble pour contrôler les endroits où l’inférence interrégionale est autorisée. À l’aide des SCP, vous pouvez contrôler les régions qu’Amazon Bedrock peut utiliser à des fins d’inférence, et à l’aide des politiques IAM, vous pouvez définir les utilisateurs ou rôles autorisés à exécuter l’inférence. Si une région de destination d’un profil d’inférence interrégional est bloquée dans vos SCP, la demande échoue même si les autres régions restent autorisées. Pour garantir un fonctionnement efficace avec l’inférence interrégionale, vous pouvez mettre à jour vos politiques SCP et IAM, afin d’autoriser toutes les actions d’inférence Amazon Bedrock requises (par exemple bedrock:InvokeModel* ou bedrock:CreateModelInvocationJob) dans toutes les régions de destination incluses dans le profil d’inférence que vous avez choisi. Pour en savoir plus, consultez https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/