Bloquez les mots et les conversations dangereux à l'aide de filtres de contenu - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Bloquez les mots et les conversations dangereux à l'aide de filtres de contenu

Amazon Bedrock Guardrails prend en charge les filtres de contenu pour aider à détecter et à filtrer les entrées utilisateur nuisibles et les sorties générées par des modèles en langage naturel. Les filtres de contenu sont pris en charge dans les catégories suivantes :

Haine

  • Décrit les suggestions de saisie et modélise les réponses qui discriminent, critiquent, insultent, dénoncent ou déshumanisent une personne ou un groupe sur la base d'une identité (telle que la race, l'origine ethnique, le sexe, la religion, l'orientation sexuelle, les capacités et l'origine nationale).

Insultes

  • Décrit les demandes de saisie et modélise les réponses qui incluent un langage dégradant, humiliant, moqueur, insultant ou rabaissant. Ce type de langage est également qualifié d’intimidation.

Sexuelle

  • Décrit les invites de saisie et modélise les réponses qui indiquent l'intérêt, l'activité ou l'excitation sexuels en utilisant des références directes ou indirectes à des parties du corps, à des traits physiques ou au sexe.

Violence

  • Décrit les instructions de saisie et modélise les réponses qui incluent la glorification ou la menace d'infliger une douleur physique, des blessures ou des blessures à une personne, à un groupe ou à un objet.

Inconduite

  • Décrit les demandes de saisie et les réponses modèles qui visent à obtenir ou à fournir des informations sur la façon de se livrer à des activités criminelles, de blesser, de frauder ou de tirer parti d'une personne, d'un groupe ou d'une institution.

Configurez des filtres de contenu pour votre garde-corps

Vous pouvez configurer des filtres de contenu pour votre garde-corps à l'aide de l'API AWS Management Console Amazon Bedrock.

Console
  1. Connectez-vous à l' AWS Management Console aide d'un rôle IAM avec les autorisations Amazon Bedrock et ouvrez la console Amazon Bedrock à l'adresse. https://console.aws.amazon.com/bedrock/

  2. Dans le volet de navigation de gauche, choisissez Guardrails, puis Create garde-corps.

  3. Pour la page Fournir des informations détaillées sur le garde-corps, procédez comme suit :

    1. Dans la section Détails du garde-corps, indiquez un nom et une description facultative pour le garde-corps.

    2. Dans Messagerie pour les invites bloquées, entrez un message qui s'affiche lorsque votre garde-corps est appliqué. Cochez la case Appliquer le même message bloqué pour les réponses pour utiliser le même message lorsque votre garde-fou est appliqué à la réponse.

    3. (Facultatif) Pour activer l'inférence entre régions pour votre garde-corps, développez l'inférence entre régions, puis sélectionnez Activer l'inférence entre régions pour votre garde-corps. Choisissez un profil de garde-corps qui définit la destination vers Régions AWS laquelle les demandes d'inférence de garde-corps peuvent être acheminées.

    4. (Facultatif) Par défaut, votre garde-corps est chiffré avec un. Clé gérée par AWS Pour utiliser votre propre clé KMS gérée par le client, élargissez la sélection de clés KMS et cochez la case Personnaliser les paramètres de chiffrement (avancés).

      Vous pouvez sélectionner une AWS KMS clé existante ou sélectionner Créer une AWS KMS clé pour en créer une nouvelle.

    5. (Facultatif) Pour ajouter des étiquettes à votre rambarde, développez Tags. Sélectionnez ensuite Ajouter un nouveau tag pour chaque tag que vous définissez.

      Pour de plus amples informations, veuillez consulter Marquer les ressources Amazon Bedrock.

    6. Choisissez Suivant.

  4. Sur la page Configurer les filtres de contenu, définissez l'intensité avec laquelle vous souhaitez filtrer le contenu lié aux catégories définies dans en Bloquez les mots et les conversations dangereux à l'aide de filtres de contenu procédant comme suit :

    1. Sélectionnez Configurer le filtre des catégories dangereuses. Sélectionnez Texte et/ou Image pour filtrer le contenu du texte ou de l'image à partir des instructions ou des réponses au modèle. Sélectionnez Aucun, Faible, Moyen ou Élevé pour le niveau de filtration que vous souhaitez appliquer à chaque catégorie. Vous pouvez choisir d'avoir différents niveaux de filtre pour les invites ou les réponses. Vous pouvez sélectionner le filtre pour les attaques rapides dans les catégories dangereuses. Configurez dans quelle mesure vous souhaitez que chaque filtre soit strict pour les invites que l'utilisateur fournit au modèle.

    2. Choisissez Bloquer ou Détecter (aucune action) pour déterminer les mesures prises par votre garde-corps lorsqu'il détecte un contenu préjudiciable dans les invites et les réponses.

      Pour de plus amples informations, veuillez consulter Options de gestion des contenus dangereux détectés par Amazon Bedrock Guardrails.

    3. Pour Définir le seuil, sélectionnez Aucun, Faible, Moyen ou Élevé pour le niveau de filtration que vous souhaitez appliquer à chaque catégorie.

      Vous pouvez choisir d'avoir différents niveaux de filtre pour les invites et les réponses.

    4. Pour le niveau des filtres de contenu, choisissez le niveau de protection que vous souhaitez que votre garde-corps utilise pour filtrer les invites et les réponses sous forme de texte. Pour de plus amples informations, veuillez consulter Politiques de protection des niveaux pour les garde-fous.

    5. Choisissez Suivant pour configurer d'autres politiques selon vos besoins ou passez directement à la révision et à la création pour terminer la création de votre garde-corps.

  5. Vérifiez les paramètres de votre garde-corps.

    1. Sélectionnez Modifier dans la section à laquelle vous souhaitez apporter des modifications.

    2. Lorsque vous avez terminé de configurer les politiques, sélectionnez Créer pour créer le garde-corps.

API

Configurez les filtres de contenu pour votre garde-corps en envoyant une CreateGuardraildemande. Le format de demande est le suivant :

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Spécifiez un name et description pour le garde-corps.

  • Spécifiez les messages lorsque le garde-corps bloque avec succès une invite ou un modèle de réponse dans les champs blockedInputMessaging etblockedOutputsMessaging.

  • Spécifiez l'intensité du filtre pour les catégories nocives disponibles pour l'contentPolicyConfigobjet.

    Chaque élément de la filtersConfig liste appartient à une catégorie dangereuse. Pour de plus amples informations, veuillez consulter Bloquez les mots et les conversations dangereux à l'aide de filtres de contenu. Pour plus d'informations sur les champs d'un filtre de contenu, consultez ContentFilter.

    • (Facultatif) Pour inputAction etoutputAction, spécifiez l'action entreprise par votre garde-corps lorsqu'il détecte un contenu préjudiciable dans les invites et les réponses.

    • (Facultatif) Spécifiez l'action à entreprendre lorsqu'un contenu préjudiciable est détecté dans les invites inputAction ou les réponses utilisantoutputAction. Choisissez BLOCK de bloquer le contenu et de le remplacer par un message bloqué, ou NONE de ne rien faire mais de renvoyer les informations de détection. Pour de plus amples informations, veuillez consulter Options de gestion des contenus dangereux détectés par Amazon Bedrock Guardrails.

    • Spécifiez l'intensité du filtre pour les invites inputStrength sur le terrain et pour les réponses du modèle outputStrength sur le terrain.

    • Spécifiez la catégorie dans le type champ.

  • (Facultatif) Spécifiez un niveau de protection pour votre garde-corps dans l'tierConfigobjet situé à l'intérieur de l'contentPolicyConfigobjet. Les options incluent STANDARD et les CLASSIC niveaux.

    Pour de plus amples informations, veuillez consulter Politiques de protection des niveaux pour les garde-fous.

  • (Facultatif) Pour activer l'inférence entre régions, spécifiez un profil de garde-corps dans l'objet. crossRegionConfig Cela est obligatoire lors de l'utilisation du STANDARD niveau.

Le format de réponse est le suivant :

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }