Création d’une barrière de protection

Amazon Bedrock Guardrails propose des filtres que vous pouvez configurer pour éviter les contenus indésirables et dangereux et pour supprimer ou masquer les informations sensibles afin de protéger la confidentialité.

Vous pouvez configurer les filtres suivants avec Amazon Bedrock Guardrails :

Filtres de contenu : ce filtre vous permet de détecter et de filtrer le texte ou le contenu d'image dangereux dans les demandes de saisie ou dans les modèles de réponses (à l'exception du contenu de raisonnement). Le filtrage est effectué sur la base de la détection de certaines catégories de contenus préjudiciables prédéfinies : haine, insultes, sexe, violence, inconduite et attaque d’invites. Vous pouvez configurer l'intensité du filtre pour chacune de ces catégories en fonction de vos cas d'utilisation. Avec le niveau Standard, la détection du contenu indésirable est étendue pour protéger les éléments de code contre les contenus dangereux, notamment les commentaires, les noms de variables et de fonctions, ainsi que les chaînes littérales.
Attaques rapides : proposé sous forme de catégorie dans les filtres de contenu, ce filtre peut vous aider à détecter et à filtrer les attaques rapides, notamment les jailbreaks, les injections rapides et les fuites rapides (niveau standard uniquement). Cette fonctionnalité vous permet de détecter les invites destinées à contourner la modération du contenu, à annuler les instructions ou à générer du contenu préjudiciable.
Sujets refusés : vous pouvez définir un ensemble de sujets à éviter dans votre application d’IA générative. Par exemple, une application d’assistant bancaire peut être conçue pour éviter les sujets liés aux conseils d’investissements illégaux. Avec le niveau Standard, les filtres de contenu s'étendent aux domaines de code.
Filtres de mots : vous pouvez définir un ensemble de mots ou d'expressions personnalisés (correspondance exacte) que vous souhaitez détecter et bloquer lors de l'interaction entre vos utilisateurs et les applications d'IA générative. Par exemple, vous pouvez détecter et bloquer les grossièretés (à l'aide d'une ready-to-use option) ainsi que des mots personnalisés spécifiques tels que les noms de concurrents ou d'autres mots offensants.
Filtres d’informations sensibles : peuvent vous aider à détecter les contenus sensibles tels que les données d’identification personnelle (PII) dans des formats standard ou des entités personnalisées basées sur des expressions régulières (regex), présents dans les entrées utilisateur et les réponses du modèle de fondation. Ce filtre est une solution basée sur l'apprentissage automatique probabiliste (ML) qui dépend du contexte. Il détecte les informations sensibles en fonction du contexte des invites de saisie ou des réponses du modèle. En fonction de votre cas d'utilisation, vous pouvez bloquer ou masquer les entrées et les réponses contenant des informations sensibles. Par exemple, vous pouvez retirer les informations personnelles des utilisateurs tout en générant des résumés à partir des transcriptions de conversations avec les clients et les agents.
Contrôles d’ancrage contextuel : peuvent vous aider à détecter et à filtrer les hallucinations dans les réponses du modèle quand elles ne sont pas ancrées (inexactes sur le plan factuel ou ajout de nouvelles informations) dans les informations source ou si elles ne sont pas pertinentes pour la requête utilisateur. Par exemple, vous pouvez bloquer ou marquer les réponses dans les applications RAG (génération augmentée par extraction), si les réponses du modèle s'écartent des informations contenues dans les passages extraits ou ne répondent pas à la question de l'utilisateur.
Vérification du raisonnement automatisé : peuvent vous aider à vérifier que les réponses du modèle respectent les règles logiques et les politiques que vous définissez. Vous pouvez créer des politiques en langage naturel qui spécifient les exigences de raisonnement, et les contrôles de raisonnement automatisés évalueront si les sorties du modèle sont conformes à ces contraintes logiques. Par exemple, vous pouvez vous assurer qu'un chatbot du service client recommande uniquement les produits disponibles dans l'inventaire, ou vérifier que les conseils financiers respectent les règles de conformité réglementaires.

Note

Tout le contenu bloqué conformément aux politiques ci-dessus apparaît sous forme de texte brut dans les journaux d’invocation du modèle Amazon Bedrock, si vous les avez activés. Vous pouvez désactiver les journaux d’invocation Amazon Bedrock si vous ne souhaitez pas que le contenu bloqué apparaisse sous forme de texte brut dans les journaux.

Un barrière de protection doit contenir au moins un filtre et un message lorsque les invites et les réponses utilisateurs sont bloquées. Vous pouvez choisir d’utiliser le message par défaut. Vous pouvez ajouter des filtres et effectuer une itération sur votre barrière de protection ultérieurement en suivant les étapes décrites dans Modification d’une barrière de protection.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utiliser des politiques basées sur les ressources pour les garde-fous

Configuration des filtres de contenu