Optionen für den Umgang mit schädlichen Inhalten, die im Integritätsschutz für Amazon Bedrock erkannt werden - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optionen für den Umgang mit schädlichen Inhalten, die im Integritätsschutz für Amazon Bedrock erkannt werden

Sie können konfigurieren, welche Aktionen Ihr Integritätsschutz in Amazon Bedrock zur Laufzeit ausführt, wenn schädliche Inhalte in Prompts (inputAction) und Antworten (outputAction) erkannt werden.

Die Filterrichtlinien des Integritätsschutzes unterstützen die folgenden Aktionen, wenn schädliche Inhalte in Modelleingaben und Antworten erkannt werden:

  • Blockieren – Blockieren des Inhalts und Ersetzen durch eine blockierte Nachricht.

  • Maske – Anonymisieren des Inhalts und Ersetzen durch Identifikations-Tags (wie {NAME} oder {EMAIL}).

    Diese Option ist nur für Filter für vertrauliche Informationen verfügbar. Weitere Informationen finden Sie unter So entfernen Sie persönlich identifizierbare Informationen aus Konversationen, indem Sie Filter für sensible Informationen verwenden.

  • Erkennen – Keine Aktion, jedoch wird die vom Integritätsschutz erkannte Information in der Verfolgungsantwort zurückgegeben. Verwenden Sie diese Option, den sogenannten Erkennungsmodus, um zu beurteilen, ob Ihr Integritätsschutz erwartungsgemäß funktioniert.

Integritätsschutzbewertung im Erkennungsmodus

Die Richtlinien im Integritätsschutz für Amazon Bedrock unterstützen den Erkennungsmodus, mit dem Sie die Leistung Ihres Integritätsschutzes auswerten können, ohne Aktionen anwenden zu müssen (z. B. Inhalte blockieren).

Der Erkennungsmodus bietet folgende Vorteile:

  • Sie können verschiedene Kombinationen und Stärken Ihrer Integritätsschutzrichtlinien austesten, ohne das Kundenerlebnis zu beeinträchtigen.

  • Sie können etwaige Fehlalarme (False Positives) oder Fehlauslassungen (False Negatives) analysieren und Ihre Richtlinienkonfigurationen entsprechend anpassen.

  • Dann setzen Sie Ihren Integritätsschutz erst ein, nachdem Sie sich vergewissert haben, dass alles erwartungsgemäß funktioniert.

Beispiel: Verwenden des Erkennungsmodus zur Bewertung von Inhaltsfiltern

Nehmen wir beispielsweise an, Sie konfigurieren eine Richtlinie mit einer Inhaltsfilterstärke HIGH. Basierend auf dieser Einstellung blockiert Ihr Integritätsschutz Inhalte, selbst wenn die Bewertung nur eine geringe Vertrauenswürdigkeit (LOW) ergibt.

Um dieses Verhalten zu verstehen (und um sicherzustellen, dass Ihre Anwendung nicht unerwartet Inhalte blockiert), können Sie die Richtlinienaktion als NONE konfigurieren. Die Verfolgungsantwort könnte dann wie folgt aussehen:

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

Dadurch können Sie die Integritätsschutzbewertung vorab anzeigen und sehen, dass VIOLENCE erkannt wurde (true), aber keine Aktion ausgeführt wurde, da Sie dies als NONE konfiguriert hatten.

Wenn Sie diesen Text nicht blockieren möchten, können Sie die Filterstärke auf MEDIUM oder setzen LOW und die Bewertung wiederholen. Sobald Sie die gewünschten Ergebnisse erhalten, können Sie Ihre Richtlinienaktion auf BLOCK oder ANONYMIZE aktualisieren.