Bewertung der Leitplanke mit Erkennungsmodus Beispiel: Verwendung des Erkennungsmodus zur Auswertung von Inhaltsfiltern

Optionen für den Umgang mit schädlichen Inhalten, die von Amazon Bedrock Guardrails erkannt wurden

Sie können konfigurieren, welche Aktionen Ihre Amazon Bedrock-Leitplanke zur Laufzeit ausführt, wenn sie schädliche Inhalte in Eingabeaufforderungen (inputAction) und Antworten () erkennt. outputAction

Die Filterrichtlinien von Guardrails unterstützen die folgenden Aktionen, wenn schädliche Inhalte in Modelleingaben und -antworten erkannt werden:

Blockieren — Blockieren Sie den Inhalt und ersetzen Sie ihn durch blockierte Nachrichten.
Maske — Anonymisieren Sie den Inhalt und ersetzen Sie ihn durch Identifikations-Tags (wie {NAME} oder{EMAIL}).

Diese Option ist nur mit Filtern für vertrauliche Informationen verfügbar. Weitere Informationen finden Sie unter Entfernen Sie personenbezogene Daten aus Konversationen, indem Sie Filter für vertrauliche Informationen verwenden.
Erkennen — Ergreifen Sie keine Aktion, sondern geben Sie zurück, was die Leitplanke in der Trace-Antwort erkannt hat. Verwenden Sie diese Option, den sogenannten Erkennungsmodus, um zu beurteilen, ob Ihre Leitplanke erwartungsgemäß funktioniert.

Bewertung der Leitplanke mit Erkennungsmodus

Die Richtlinien von Amazon Bedrock Guardrails unterstützen den Erkennungsmodus, mit dem Sie die Leistung Ihrer Guardrails bewerten können, ohne Maßnahmen ergreifen zu müssen (z. B. Inhalte blockieren).

Die Verwendung des Erkennungsmodus bietet die folgenden Vorteile:

Testen Sie verschiedene Kombinationen und Stärken Ihrer Guardrail-Policen, ohne das Kundenerlebnis zu beeinträchtigen.
Analysieren Sie alle falsch positiven oder negativen Ergebnisse und passen Sie Ihre Richtlinienkonfigurationen entsprechend an.
Setzen Sie Ihre Leitplanke erst ein, nachdem Sie sich vergewissert haben, dass sie erwartungsgemäß funktioniert.

Beispiel: Verwendung des Erkennungsmodus zur Auswertung von Inhaltsfiltern

Nehmen wir zum Beispiel an, Sie konfigurieren eine Richtlinie mit einer Inhaltsfilterstärke vonHIGH. Basierend auf dieser Einstellung blockiert Ihre Schutzplanke Inhalte, auch wenn sie das Vertrauen LOW in ihre Bewertung zurückgibt.

Um dieses Verhalten zu verstehen (und sicherzustellen, dass Ihre Anwendung keine Inhalte blockiert, die Sie nicht erwarten), können Sie die Richtlinienaktion als konfigurieren. NONE Die Trace-Antwort könnte wie folgt aussehen:


{
    "assessments": [{
        "contentPolicy": {
            "filters": [{
                "action": "NONE",
                "confidence": "LOW",
                "detected": true,
                "filterStrength": "HIGH",
                "type": "VIOLENCE"
            }]
        }
    }]
}

Auf diese Weise können Sie eine Vorschau der Guardrail-Auswertung anzeigen und sehen, ob erkannt VIOLENCE wurde (true), aber keine Maßnahmen ergriffen wurden, weil Sie das so konfiguriert haben. NONE

Wenn Sie diesen Text nicht blockieren möchten, können Sie die Filterstärke auf MEDIUM oder einstellen LOW und die Auswertung wiederholen. Sobald Sie die gewünschten Ergebnisse erhalten haben, können Sie Ihre Richtlinienaktion auf BLOCK oder ANONYMIZE ändern.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Fügen Sie kontextuelle Erdungsprüfungen hinzu

Fügen Sie automatische Argumentationsprüfungen in Amazon Bedrock Guardrails hinzu