Blocage des mots et des conversations préjudiciables à l’aide de filtres de contenu - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Blocage des mots et des conversations préjudiciables à l’aide de filtres de contenu

Amazon Bedrock Guardrails prend en charge les filtres de contenu pour aider à détecter et à filtrer les entrées utilisateur nuisibles et les sorties générées par des modèles en langage naturel, ainsi que le contenu lié au code dans le niveau Standard. Les filtres de contenu sont pris en charge dans les catégories suivantes :

Haine

  • Décrit les invites d’entrée et les réponses du modèle qui discriminent, critiquent, insultent, dénoncent ou déshumanise une personne ou un groupe de personnes sur la base d’une identité (telle que la race, l’origine ethnique, le genre, la religion, l’orientation sexuelle, les capacités et l’origine nationale).

Insultes

  • Décrit les invites d’entrée et les réponses du modèle qui incluent un langage dégradant, humiliant, moqueur, insultant ou dénigrant. Ce type de langage est également qualifié d’intimidation.

Sexe

  • Décrit les invites d’entrée et les réponses du modèle qui indiquent un intérêt pour le sexe, une activité ou une excitation sexuelles, en utilisant des références directes ou indirectes à des parties du corps, à des traits physiques ou au sexe.

Violence

  • Décrit les invites d’entrée et les réponses du modèle qui incluent la glorification de, ou les menaces d’infliger une douleur physique ou des blessures à, une personne, un groupe ou un objet.

Inconduite

  • Décrit les invites d’entrée et les réponses du modèle qui visent à obtenir ou à fournir des informations sur la façon de se livrer à des activités criminelles, de blesser, de frauder ou de tirer parti d’une personne, d’un groupe ou d’une institution.

Configuration de filtres de contenu pour votre barrière de protection

Vous pouvez configurer des filtres de contenu pour votre garde-corps à l'aide de l'API AWS Management Console Amazon Bedrock.

Console
  1. Connectez-vous au AWS Management Console avec une identité IAM autorisée à utiliser la console Amazon Bedrock. Ouvrez ensuite la console Amazon Bedrock à l'adresse https://console.aws.amazon.com/bedrock.

  2. Dans le volet de navigation de gauche, choisissez Barrières de protection, puis Créer une barrière de protection.

  3. Pour la page Fournissez les détails de la barrière de protection, procédez comme suit :

    1. Dans la section Détails de la barrière de protection, indiquez le nom et une description facultative de la barrière de protection.

    2. Dans Messagerie pour les invites bloquées, saisissez le message à afficher lorsque votre barrière de protection est appliquée. Cochez la case Appliquer le même message bloqué aux réponses pour utiliser le même message lorsque votre barrière de protection est appliquée à la réponse.

    3. (Facultatif) Afin d’activer l’inférence interrégionale pour votre barrière de protection, développez Inférence interrégionale, puis sélectionnez Activer l’inférence interrégionale pour votre barrière de protection. Choisissez un profil de barrière de protection qui définit les Régions AWS de destination vers lesquelles les demandes d’inférence de barrière de protection peuvent être acheminées.

    4. (Facultatif) Par défaut, votre garde-corps est chiffré avec un. Clé gérée par AWS Pour utiliser votre propre clé KMS gérée par le client, développez Sélection de la clé KMS, puis cochez la case Personnaliser les paramètres de chiffrement (avancé).

      Vous pouvez sélectionner une AWS KMS clé existante ou sélectionner Créer une AWS KMS clé pour en créer une nouvelle.

    5. (Facultatif) Pour ajouter des balises à votre barrière de protection, développez Balises. Sélectionnez ensuite Ajouter une nouvelle balise pour chaque balise que vous définissez.

      Pour de plus amples informations, veuillez consulter Balisage des ressources Amazon Bedrock.

    6. Choisissez Suivant.

  4. Sur la page Configuration des filtres de contenu, définissez la force avec laquelle vous souhaitez filtrer le contenu lié aux catégories définies dans Blocage des mots et des conversations préjudiciables à l’aide de filtres de contenu en procédant comme suit :

    1. Sélectionnez Activer les filtres de catégories nocives. Sélectionnez Texte et/ou Image pour filtrer le contenu du texte ou des images des invites ou des réponses du modèle. Sélectionnez Aucun, Faible, Moyen ou Élevé pour le niveau de filtration que vous souhaitez appliquer à chaque catégorie. Vous pouvez choisir d’avoir différents niveaux de filtre pour les invites ou les réponses. Vous pouvez sélectionner le filtre pour les attaques d’invites dans les catégories préjudiciables. Définissez à quel point chaque filtre doit être strict pour les invites fournies par l’utilisateur au modèle.

    2. Choisissez Bloquer ou Détecter (aucune action) pour déterminer les mesures prises par votre barrière de protection lorsqu’elle détecte un contenu préjudiciable dans les invites et les réponses.

      Pour de plus amples informations, veuillez consulter Options de gestion des contenus préjudiciables détectés par les barrières de protection Amazon Bedrock.

    3. Pour Définir le seuil, sélectionnez Aucun, Faible, Moyen ou Élevé pour le niveau de filtration que vous souhaitez appliquer à chaque catégorie.

      Vous pouvez choisir d’avoir différents niveaux de filtre pour les invites et les réponses.

    4. Pour Niveau des filtres de contenu, choisissez le niveau de protection que vous souhaitez que votre barrière de protection utilise pour filtrer les invites et les réponses sous forme de texte. Pour de plus amples informations, veuillez consulter Niveaux de sauvegarde pour les stratégies de barrières de protection.

    5. Choisissez Suivant pour configurer d’autres stratégies selon vos besoins ou Passer à la révision et à la création pour terminer la création de votre barrière de protection.

  5. Vérifiez les paramètres de votre barrière de protection.

    1. Choisissez Modifier dans toute section à laquelle vous voulez apporter des modifications.

    2. Lorsque vous avez terminé de configurer les stratégies, sélectionnez Créer pour créer la barrière de protection.

API

Configurez les filtres de contenu pour votre garde-corps en envoyant une CreateGuardraildemande. Le format de demande est le suivant :

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Spécifiez un name et une description pour la barrière de protection.

  • Dans les champs blockedInputMessaging et blockedOutputsMessaging, spécifiez les messages à afficher quand la barrière de protection bloque avec succès une invite ou une réponse du modèle.

  • Spécifiez la force du filtre pour les catégories préjudiciables disponibles pour l’objet contentPolicyConfig.

    Chaque élément de la liste filtersConfig appartient à une catégorie préjudiciable. Pour de plus amples informations, veuillez consulter Blocage des mots et des conversations préjudiciables à l’aide de filtres de contenu. Pour plus d'informations sur les champs d'un filtre de contenu, consultez ContentFilter.

    • (Facultatif) Pour inputAction et outputAction, spécifiez l’action effectuée par votre barrière de protection lorsqu’elle détecte du contenu préjudiciable dans les invites et les réponses.

    • (Facultatif) Spécifiez l’action à effectuer lorsque du contenu préjudiciable est détecté dans les invites avec inputAction ou dans les réponses avec outputAction. Choisissez BLOCK pour bloquer le contenu et le remplacer par un message de blocage, ou NONE pour ne rien faire à part renvoyer les informations de détection. Pour de plus amples informations, veuillez consulter Options de gestion des contenus préjudiciables détectés par les barrières de protection Amazon Bedrock.

    • Spécifiez la force du filtre dans le champ inputStrength pour les invites et dans le champ outputStrength pour les réponses du modèle.

    • Spécifiez la catégorie dans le champ type.

  • (Facultatif) Spécifiez un niveau de protection pour votre barrière de protection dans l’objet tierConfig à l’intérieur de l’objet contentPolicyConfig. Les options incluent les niveaux STANDARD et CLASSIC.

    Pour de plus amples informations, veuillez consulter Niveaux de sauvegarde pour les stratégies de barrières de protection.

  • (Facultatif) Pour activer l’inférence interrégionale, spécifiez un profil de barrière de protection dans l’objet crossRegionConfig. C’est nécessaire lors de l’utilisation du niveau STANDARD.

Le format de la réponse ressemble à ceci :

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }