Évaluation du garde-corps avec mode de détection Exemple : utilisation du mode de détection pour évaluer les filtres de contenu

Options de gestion des contenus dangereux détectés par Amazon Bedrock Guardrails

Vous pouvez configurer les actions entreprises par votre garde-corps Amazon Bedrock au moment de l'exécution lorsqu'il détecte un contenu préjudiciable dans les invites (inputAction) et les réponses (). outputAction

Les politiques de filtrage de Guardrails prennent en charge les actions suivantes lorsqu'un contenu préjudiciable est détecté dans les entrées et les réponses du modèle :

Bloquer : bloquez le contenu et remplacez-le par des messages bloqués.
Masque : anonymisez le contenu et remplacez-le par des balises d'identification (telles que {NAME} ou{EMAIL}).

Cette option n'est disponible qu'avec les filtres d'informations sensibles. Pour de plus amples informations, veuillez consulter Supprimer les informations personnelles des conversations en utilisant des filtres d'informations sensibles.
Détecter : ne prenez aucune mesure mais renvoyez ce que le garde-corps détecte dans la réponse de suivi. Utilisez cette option, connue sous le nom de mode de détection, pour évaluer si votre garde-corps fonctionne comme prévu.

Évaluation du garde-corps avec mode de détection

Les politiques d'Amazon Bedrock Guardrails prennent en charge le mode de détection, qui vous permet d'évaluer les performances de votre garde-corps sans appliquer aucune action (comme le blocage du contenu).

L'utilisation du mode de détection offre les avantages suivants :

Testez différentes combinaisons et points forts des politiques de votre garde-corps sans affecter l'expérience client.
Analysez les faux positifs ou négatifs et ajustez les configurations de vos politiques en conséquence.
Déployez votre garde-corps uniquement après avoir confirmé qu'il fonctionne comme prévu.

Exemple : utilisation du mode de détection pour évaluer les filtres de contenu

Supposons, par exemple, que vous configurez une politique avec une puissance de filtrage de contenu deHIGH. Sur la base de ce paramètre, votre garde-corps bloquera le contenu même s'il renvoie une valeur de confiance LOW dans son évaluation.

Pour comprendre ce comportement (et vous assurer que votre application ne bloque pas le contenu auquel vous ne vous attendez pas), vous pouvez configurer l'action de politique en tant queNONE. La réponse de suivi peut ressembler à ceci :


{
    "assessments": [{
        "contentPolicy": {
            "filters": [{
                "action": "NONE",
                "confidence": "LOW",
                "detected": true,
                "filterStrength": "HIGH",
                "type": "VIOLENCE"
            }]
        }
    }]
}

Cela vous permet de prévisualiser l'évaluation du garde-corps et de voir qu'VIOLENCEelle a été détectée (true), mais aucune action n'a été entreprise car vous l'avez configurée pour. NONE

Si vous ne souhaitez pas bloquer ce texte, vous pouvez ajuster l'intensité du filtre MEDIUM ou LOW refaire l'évaluation. Une fois que vous avez obtenu les résultats que vous recherchez, vous pouvez mettre à jour votre action politique vers BLOCK ouANONYMIZE.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Ajouter des vérifications contextuelles de mise à la terre

Ajoutez des contrôles de raisonnement automatisés dans Amazon Bedrock Guardrails