Détection et filtrage des contenus préjudiciables à l’aide des barrières de protection Amazon Bedrock

Amazon Bedrock Guardrails fournit des protections configurables pour vous aider à créer des applications d'IA générative sûres. Grâce à des contrôles de sécurité et de confidentialité complets sur tous les modèles de base (FMs), Amazon Bedrock Guardrails offre une expérience utilisateur cohérente qui permet de détecter et de filtrer les contenus indésirables et de protéger les informations sensibles susceptibles de se trouver dans les entrées des utilisateurs ou dans les réponses des modèles (à l'exception des blocs de contenu de raisonnement).

Vous pouvez utiliser Amazon Bedrock Guardrails dans de nombreux cas d'utilisation et applications. Voici quelques exemples :

Une application de chatbot pour aider à filtrer les entrées utilisateur nuisibles et les réponses toxiques des modèles.
Une application bancaire permettant de bloquer les requêtes des utilisateurs ou de modéliser les réponses associées à la recherche ou à la fourniture de conseils d'investissement illégaux.
Une application de centre d’appels résumant les transcriptions des conversations entre les utilisateurs et les agents peut utiliser les barrières de protection pour retirer les données d’identification personnelle (PII) des utilisateurs afin de protéger la confidentialité.

Amazon Bedrock Guardrails fournit les garanties suivantes (également appelées filtres) pour détecter et filtrer les contenus indésirables :

Filtres de contenu : ce filtre vous permet de détecter et de filtrer le contenu textuel ou image dangereux dans les demandes de saisie ou dans les modèles de réponses. Le filtrage est effectué sur la base de la détection de certaines catégories de contenus préjudiciables prédéfinies : haine, insultes, sexe, violence, inconduite et attaque d’invites. Vous pouvez configurer l'intensité du filtre pour chacune de ces catégories en fonction de vos cas d'utilisation. Ces catégories sont prises en charge pour les niveaux classique et standard. Avec le niveau Standard, la détection du contenu indésirable est étendue à la protection contre le contenu préjudiciable introduit dans les éléments du code, notamment les commentaires, les noms de variables et de fonctions et les chaînes littérales.
Sujets refusés : vous pouvez définir un ensemble de sujets indésirables dans le contexte de votre application. Le filtre aidera à les bloquer s’ils sont détectés dans les requêtes des utilisateurs ou dans les réponses du modèle. Avec le niveau Standard, la détection du contenu indésirable est étendue à la protection contre le contenu préjudiciable introduit dans les éléments du code, notamment les commentaires, les noms de variables et de fonctions, ainsi que les chaînes littérales.
Filtres de mots : vous pouvez définir un ensemble de mots ou d'expressions personnalisés (correspondance exacte) que vous souhaitez bloquer lors de l'interaction entre les utilisateurs finaux et les applications d'IA générative. Par exemple, vous pouvez bloquer les grossièretés (utilisez une ready-to-use option) ainsi que les mots personnalisés tels que les noms des concurrents.
Filtres d'informations sensibles : vous pouvez configurer ce filtre pour aider à bloquer ou à masquer les informations sensibles, telles que les informations personnelles identifiables (PII), dans les entrées des utilisateurs et dans les réponses des modèles. Le blocage ou le masquage sont effectués sur la base de la détection probabiliste d'informations sensibles dans des entités telles que le numéro SSN, la date de naissance, l'adresse, etc. Ce filtre permet également de configurer la détection de modèles basée sur des expressions régulières (regex personnalisé).
Contrôles contextuels de base : ce filtre vous aide à détecter les hallucinations dans les réponses du modèle si elles ne sont pas fondées (inexactes ou ajoutent de nouvelles informations) dans la source ou si elles ne sont pas pertinentes par rapport à la requête de l'utilisateur. Par exemple, vous pouvez bloquer ou signaler les réponses dans les applications de génération augmentée par extraction (RAG). Si les réponses du modèle s'écartent des informations contenues dans la source récupérée ou ne répondent pas à la question de l'utilisateur.
Contrôles de raisonnement automatisés : ce filtre vous aide à valider la précision des réponses du modèle de base par rapport à un ensemble de règles logiques. Vous pouvez utiliser les vérifications du raisonnement automatisés pour détecter les hallucinations, suggérer des corrections et mettre en évidence les hypothèses non énoncées dans les réponses du modèle.

Outre les filtres ci-dessus, vous pouvez également configurer les messages à renvoyer à l'utilisateur si une entrée utilisateur ou une réponse du modèle ne respecte pas les filtres définis dans le garde-corps.

Expérimentez et comparez différentes configurations, et utilisez la fenêtre de test intégrée pour vous assurer que les résultats répondent aux exigences de votre cas d’utilisation. Lorsque vous créez une barrière de protection, une version préliminaire est automatiquement disponible pour que vous puissiez la modifier de manière itérative. Expérimentez différentes configurations et utilisez la fenêtre de test intégrée pour voir si elles sont adaptées à votre cas d’utilisation. Quand vous êtes satisfait d’un ensemble de configurations, vous pouvez créer une version de la barrière de protection et l’utiliser avec les modèles de fondation pris en charge.

Les garde-corps peuvent être utilisés directement FMs lors de l'appel de l'API d'inférence en spécifiant l'ID du garde-corps et la version. Les barrières de protection peuvent également être utilisées directement via l’API ApplyGuardrail sans invoquer les modèles de fondation. Si un garde-corps est utilisé, il évaluera les demandes de saisie et les complétions FM par rapport aux filtres définis.

Pour les applications de génération augmentée ou de récupération (RAG) ou conversationnelles, vous devrez peut-être évaluer uniquement les instructions saisies par l'utilisateur tout en supprimant les instructions système, les résultats de recherche, l'historique des conversations ou quelques courts exemples. Pour évaluer de manière sélective une section de l'invite de saisie, voir Application de balises aux entrées utilisateur pour filtrer le contenu La possibilité d'évaluer uniquement une section de l'invite de saisie est disponible via le SDK AWS et n'est pas disponible sur la console de gestion, y compris le Bedrock Playground et la console de gestion Bedrock Guardrails.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Sécurité d’injection d’invite

Présentation de