Détection et filtrage des contenus préjudiciables à l’aide des barrières de protection Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Détection et filtrage des contenus préjudiciables à l’aide des barrières de protection Amazon Bedrock

Les barrière de protection Amazon Bedrock fournissent de dispositifs de sécurité que vous pouvez configurer pour vos applications d’IA générative en fonction de vos cas d’utilisation et de politiques en matière d’IA responsable. Vous pouvez créer plusieurs garde-fous adaptés à différents cas d'utilisation et les appliquer à plusieurs modèles de base (FMs), en fournissant une expérience utilisateur cohérente et en normalisant les contrôles de sécurité et de confidentialité dans les applications d'IA générative. Vous pouvez utiliser des barrières de protection pour les invites et les réponses du modèle en langage naturel.

Vous pouvez utiliser les barrières de protection Amazon Bedrock de différentes manières pour protéger vos applications d’IA générative. Par exemple :

  • Une application de chatbot peut utiliser les barrières de protection pour filtrer les entrées utilisateur préjudiciables et les réponses toxiques du modèle.

  • Une application bancaire peut utiliser des barrières de protection pour bloquer les requêtes des utilisateurs ou les réponses du modèle associées à la recherche ou à la fourniture de conseils en investissement.

  • Une application de centre d’appels résumant les transcriptions des conversations entre les utilisateurs et les agents peut utiliser les barrières de protection pour retirer les données d’identification personnelle (PII) des utilisateurs afin de protéger la confidentialité.

Les barrières de protection Amazon Bedrock fournissent les dispositifs suivants (également appelés politiques) pour détecter et filtrer les contenus préjudiciables :

  • Filtres de contenu : détectez et filtrez le contenu préjudiciable des textes ou des images dans les invites d’entrée ou les réponses du modèle. Le filtrage est effectué sur la base de la détection de certaines catégories de contenus préjudiciables prédéfinies : haine, insultes, sexe, violence, inconduite et attaque d’invites. Vous pouvez également ajuster la force du filtre pour chacune de ces catégories. Ces catégories sont prises en charge pour les niveaux classique et standard. Avec le niveau Standard, la détection du contenu indésirable est étendue à la protection contre le contenu préjudiciable introduit dans les éléments du code, notamment les commentaires, les noms de variables et de fonctions et les chaînes littérales.

  • Sujets refusés : définissez un ensemble de sujets indésirables dans le contexte de votre application. Le filtre aidera à les bloquer s’ils sont détectés dans les requêtes des utilisateurs ou dans les réponses du modèle. Avec le niveau Standard, la détection du contenu indésirable est étendue à la protection contre le contenu préjudiciable introduit dans les éléments du code, notamment les commentaires, les noms de variables et de fonctions, ainsi que les chaînes littérales.

  • Filtres de mots : configurez des filtres pour bloquer les mots, les expressions et les grossièretés indésirables (correspondance exacte). Ces mots peuvent inclure des termes offensants, des noms de concurrents, etc.

  • Filtres d’informations sensibles : configurez des filtres pour aider à bloquer ou à masquer les informations sensibles, telles que les données d’identification personnelle (PII), ou des expressions régulières personnalisées dans les entrées utilisateur et les réponses du modèle. Le blocage ou le masquage sont effectués sur la base de la détection probabiliste d’informations sensibles dans des formats standard dans les entités comme le numéro de sécurité sociale, la date de naissance, l’adresse, etc. Cela permet également de configurer la détection basée sur des expressions régulières de modèles pour les identifiants.

  • Contrôle d’ancrage contextuel : détectez et filtrez les hallucinations dans les réponses du modèle en fonction de l’ancrage dans une source et de la pertinence par rapport à la requête utilisateur.

  • Vérifications du raisonnement automatisé : peuvent vous aider à valider l’exactitude des réponses du modèle de fondation par rapport à un ensemble de règles logiques. Vous pouvez utiliser les vérifications du raisonnement automatisés pour détecter les hallucinations, suggérer des corrections et mettre en évidence les hypothèses non énoncées dans les réponses du modèle.

Outre les politiques ci-dessus, vous pouvez également configurer les messages à renvoyer à l’utilisateur si une entrée utilisateur ou une répondu du modèle enfreint les politiques définies dans la barrière de protection.

Expérimentez et comparez différentes configurations, et utilisez la fenêtre de test intégrée pour vous assurer que les résultats répondent aux exigences de votre cas d’utilisation. Lorsque vous créez une barrière de protection, une version préliminaire est automatiquement disponible pour que vous puissiez la modifier de manière itérative. Expérimentez différentes configurations et utilisez la fenêtre de test intégrée pour voir si elles sont adaptées à votre cas d’utilisation. Quand vous êtes satisfait d’un ensemble de configurations, vous pouvez créer une version de la barrière de protection et l’utiliser avec les modèles de fondation pris en charge.

Les garde-corps peuvent être utilisés directement FMs lors de l'appel de l'API d'inférence en spécifiant l'ID du garde-corps et la version. Les barrières de protection peuvent également être utilisées directement via l’API ApplyGuardrail sans invoquer les modèles de fondation. Quand une barrière de protection est utilisée, elle évalue les invites d’entrée et les complétions du FM par rapport aux politiques définies.

Pour la génération à enrichissement contextuel (RAG) ou les applications conversationnelles, vous devrez peut-être évaluer uniquement les informations saisies par l’utilisateur dans l’invite d’entrée tout en omettant les instructions système, les résultats de recherche, l’historique des conversations ou quelques courts exemples. Pour évaluer de manière sélective une section de l’invite d’entrée, consultez Application de balises aux entrées utilisateur pour filtrer le contenu.