Blocage des sujets refusés pour aider à supprimer le contenu préjudiciable - Amazon Bedrock

Blocage des sujets refusés pour aider à supprimer le contenu préjudiciable

Dans une barrière de protection, vous pouvez spécifier un ensemble de sujets refusés qui ne sont pas souhaitables dans le contexte de votre application d’IA générative. Par exemple, une banque peut souhaiter que son assistant d’IA évite les conversations liées aux conseils d’investissement ou aux cryptomonnaies.

Les invites et les réponses du modèle en langage naturel sont évaluées par rapport à chaque sujet refusé dans votre barrière de protection. Si l’un des sujets refusés est détecté, votre barrière de protection renvoie un message de blocage.

Créez un sujet refusé avec les paramètres suivants, que votre barrière de protection utilise pour détecter si une invite ou une réponse correspond au sujet :

  • Nom : nom du sujet. Le nom doit être un nom commun ou une expression. Ne décrivez pas le sujet dans le nom. Par exemple :

    • Investment Advice

  • Définition : jusqu’à 200 caractères résumant le contenu du sujet. La définition doit décrire le contenu du sujet et de ses sous-thèmes.

    Voici un exemple de définition de sujet que vous pouvez fournir :

    Investment advice is inquiries, guidance, or recommendations about the management or allocation of funds or assets with the goal of generating returns or achieving specific financial objectives.

  • Exemples d’expressions (facultatif) : liste de cinq exemples d’expressions au maximum faisant référence au sujet. Chaque expression peut contenir jusqu’à 100 caractères. Un exemple est une invite ou une suite qui indique le type de contenu à filtrer. Par exemple :

    • Is investing in the stocks better than bonds?

    • Should I invest in gold?

Bonnes pratiques pour la création de sujets refusés

  • Définissez le sujet de manière claire et précise. Une définition claire et sans ambiguïté d’un sujet peut améliorer la précision de sa détection. Par exemple, un sujet destiné à détecter les requêtes ou les déclarations associées aux cryptomonnaies peut être défini ainsi : Question or information associated with investing, selling, transacting, or procuring cryptocurrencies.

  • N’incluez pas d’exemples ni d’instructions dans la définition du sujet. Par exemple, Block all contents associated to cryptocurrency est une instruction et non d’une définition de sujet. De telles instructions ne doivent pas être utilisées dans le cadre des définitions de sujet.

  • Ne définissez pas de sujets négatifs ni d’exceptions. Par exemple, All contents except medical information ou Contents not containing medical information constituent des définitions négatives d’un sujet et ne doivent pas être utilisées.

  • N’utilisez pas de sujets refusés pour capturer des entités ou des mots. Par exemple, Statement or questions containing the name of a person "X" ou Statements with a competitor name Y. Les définitions de sujets représentent un thème ou un sujet et les barrières de protection évaluent une entrée de manière contextuelle. Le filtrage par sujet ne doit pas être utilisé pour capturer des mots individuels ou des types d’entités. Pour plus d’informations, consultez Suppression des données d’identification personnelle (PII) des conversations à l’aide des filtres d’informations sensibles ou Suppression d’une liste spécifique de mots et d’expressions des conversations à l’aide de filtres de mots pour ces cas d’utilisation.

Ajout de sujets refusés à votre barrière de protection

Vous pouvez ajouter jusqu’à 30 sujets refusés à votre barrière de protection à l’aide de la AWS Management Console ou de l’API Amazon Bedrock.

Console
  1. Connectez-vous à la AWS Management Console avec une identité IAM autorisée à utiliser la console Amazon Bedrock. Ensuite, ouvrez la console Amazon Bedrock à l’adresse https://console.aws.amazon.com/bedrock.

  2. Dans le volet de navigation de gauche, choisissez Barrières de protection, puis Créer une barrière de protection.

  3. Pour la page Fournissez les détails de la barrière de protection, procédez comme suit :

    1. Dans la section Détails de la barrière de protection, indiquez le nom et une description facultative de la barrière de protection.

    2. Dans Messagerie pour les invites bloquées, saisissez le message à afficher lorsque votre barrière de protection est appliquée. Cochez la case Appliquer le même message bloqué aux réponses pour utiliser le même message lorsque votre barrière de protection est appliquée à la réponse.

    3. (Facultatif) Afin d’activer l’inférence interrégionale pour votre barrière de protection, développez Inférence interrégionale, puis sélectionnez Activer l’inférence interrégionale pour votre barrière de protection. Choisissez un profil de barrière de protection qui définit les Régions AWS de destination vers lesquelles les demandes d’inférence de barrière de protection peuvent être acheminées.

    4. (Facultatif) Par défaut, votre barrière de protection est chiffrée avec une Clé gérée par AWS. Pour utiliser votre propre clé KMS gérée par le client, développez Sélection de la clé KMS, puis cochez la case Personnaliser les paramètres de chiffrement (avancé).

      Vous pouvez sélectionner une clé AWS KMS existante ou sélectionner Créer une clé AWS KMS pour en créer une.

    5. (Facultatif) Pour ajouter des balises à votre barrière de protection, développez Balises, puis sélectionnez Ajouter une nouvelle balise pour chaque balise que vous définissez.

      Pour plus d’informations, consultez Balisage des ressources Amazon Bedrock.

    6. Choisissez Suivant.

  4. Lorsque vous arrivez sur la page Ajouter des sujets refusés, choisissez Ajouter un sujet refusé et procédez comme suit :

    1. Entrez un Nom pour la rubrique.

    2. Pour Définition, définissez le sujet. Pour obtenir des instructions sur la façon de définir un sujet refusé, consultez Blocage des sujets refusés pour aider à supprimer le contenu préjudiciable.

    3. (Facultatif) Pour la Entrée, spécifiez si l’évaluation par la barrière de protection est activée pour les invites du modèle. Si oui, choisissez l’action que doit effectuer votre barrière de protection. Bloquer est l’action activée par défaut. Pour plus d’informations, consultez Options de gestion des contenus préjudiciables détectés par les barrières de protection Amazon Bedrock.

    4. (Facultatif) Pour Sortie, spécifiez si l’évaluation par la barrière de protection est activée pour les réponses du modèle. Si oui, choisissez l’action que doit effectuer votre barrière de protection sur les réponses. Bloquer est l’action activée par défaut. Pour plus d’informations, consultez Options de gestion des contenus préjudiciables détectés par les barrières de protection Amazon Bedrock.

    5. (Facultatif) Développez Ajouter des exemples de phrases et entrez une expression représentative des invites ou des réponses liées à ce sujet. Vous pouvez entrer jusqu’à cinq expressions. Pour chaque expression que vous incluez, sélectionnez Ajouter une phrase.

    6. Pour le Niveau de sujet refusé, choisissez le niveau de protection que votre barrière de protection doit utiliser pour bloquer les sujets dans les invites et les réponses. Pour plus d’informations, consultez Niveaux de sauvegarde pour les stratégies de barrières de protection.

    7. Lorsque vous avez terminé de configurer le sujet refusé, sélectionnez Confirmer.

    8. Pour créer d’autres sujets refusés, répétez les étapes précédentes.

    9. Choisissez Suivant pour configurer d’autres stratégies selon vos besoins ou Passer à la révision et à la création pour terminer la création de votre barrière de protection.

  5. Vérifiez les paramètres de votre barrière de protection.

    1. Choisissez Modifier dans toute section à laquelle vous voulez apporter des modifications.

    2. Lorsque vous avez terminé de configurer les stratégies, sélectionnez Créer pour créer la barrière de protection.

API

Ajoutez des sujets refusés à votre barrière de protection en envoyant une demande CreateGuardrail. Voici à quoi ressemble le format de la demande :

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "topicPolicyConfig": { "topicsConfig": [ { "definition": "string", "examples": [ "string" ], "inputAction": "BLOCK | NONE", "inputEnabled": true, "name": "string", "outputAction": "BLOCK | NONE", "outputEnabled": true, "type": "DENY" }, "tierConfig": { "tierName": "CLASSIC | STANDARD" }, ] }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Dans les champs blockedInputMessaging et blockedOutputsMessaging, spécifiez les messages à afficher quand la barrière de protection bloque avec succès une invite ou une réponse du modèle.

  • Spécifiez les sujets que la barrière de protection doit refuser dans l’objet topicPolicyConfig. Chaque élément de la liste topicsConfig se rapporte à un sujet.

    • Spécifiez un name et une definition pour le sujet qui doit être refusé.

    • Spécifiez DENY dans le champ type.

    • Spécifiez l’action à effectuer lorsque le sujet est détecté dans les invites à l’aide de inputAction ou dans les réponses à l’aide de outputAction. Choisissez BLOCK pour bloquer le contenu et le remplacer par un message de blocage, ou NONE pour ne rien faire à part renvoyer les informations de détection. Pour plus d’informations, consultez Options de gestion des contenus préjudiciables détectés par les barrières de protection Amazon Bedrock.

    • Définissez inputEnabled et outputEnabled pour contrôler si l’évaluation par la barrière de protection est activée pour les invites et les réponses du modèle.

    • (Facultatif) Dans la liste examples, spécifiez jusqu’à cinq exemples d’expressions représentatives des invites ou des réponses liées à ce sujet.

  • (Facultatif) Spécifiez un niveau de protection pour votre barrière de protection dans l’objet tierConfig. Les options incluent les niveaux STANDARD et CLASSIC.

    Pour plus d’informations, consultez Niveaux de sauvegarde pour les stratégies de barrières de protection.

  • (Facultatif) Pour activer l’inférence interrégionale, spécifiez un profil de barrière de protection dans l’objet crossRegionConfig. C’est nécessaire lors de l’utilisation du niveau STANDARD.

  • Spécifiez un name et une description pour la barrière de protection.

Le format de la réponse ressemble à ceci :

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }