So blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern

Amazon Bedrock Guardrails unterstützt Inhaltsfilter, um schädliche Benutzereingaben und modellgenerierte Ausgaben in natürlicher Sprache sowie codebezogene Inhalte im Standard-Tarif zu erkennen und zu filtern. Inhaltsfilter werden für die folgenden Kategorien unterstützt:

Hass

  • Beschreibt Prompts und Modellantworten, die eine Person oder Gruppe aufgrund ihrer Identität (wie etwa Rasse, ethnische Zugehörigkeit, Geschlecht, Religion, sexuelle Orientierung, Fähigkeiten oder Herkunft) diskriminieren, kritisieren, beleidigen, verurteilen oder entmenschlichen.

Beleidigungen

  • Beschreibt Prompts und Modellantworten, die erniedrigende, demütigende, spöttische, beleidigende oder herabsetzende Sprache enthalten. Diese Art von Sprache wird auch als Mobbing bezeichnet.

Sexuell

  • Beschreibt Prompts und Modellantworten, die sexuelles Interesse, sexuelle Aktivität oder Erregung durch direkte oder indirekte Hinweise auf Körperteile, körperliche Merkmale oder Sexualität erkennen lassen.

Gewalt

  • Beschreibt Prompts und Modellantworten, die die Verherrlichung oder Androhung von körperlichen Schmerzen, Verletzungen oder Schädigungen gegenüber einer Person, Gruppe oder Sache enthalten.

Fehlverhalten

  • Beschreibt Prompts und Modellantworten, die Informationen über die Beteiligung an kriminellen Aktivitäten oder über das Schädigen, Betrügen oder Ausnutzen einer Person, Gruppe oder Institution suchen oder bereitstellen.

So konfigurieren Sie Inhaltsfilter für Ihren Integritätsschutz

Sie können Inhaltsfilter für Ihre Leitplanke mithilfe der AWS-Managementkonsole oder Amazon Bedrock API konfigurieren.

Console
  1. Melden Sie sich bei der AWS-Managementkonsole mit einer IAM-Identität an, die berechtigt ist, die Amazon Bedrock-Konsole zu verwenden. Öffnen Sie dann die Amazon Bedrock-Konsole unter https://console.aws.amazon.com/bedrock.

  2. Wählen Sie in der linken Navigationsleiste Integritätsschutz und dann Integritätsschutz erstellen aus.

  3. Führen Sie auf der Seite Integritätsschutzdetails bereitstellen die folgenden Schritte aus:

    1. Geben Sie im Abschnitt Integritätsschutzdetails einen Namen und optional eine Beschreibung für den Integritätsschutz an.

    2. Geben Sie unter Nachrichten für blockierte Prompts eine Meldung ein, die angezeigt wird, wenn Ihr Integritätsschutz angewendet wird. Aktivieren Sie das Kontrollkästchen Dieselbe blockierte Nachricht auf Antworten anwenden, um dieselbe Nachricht zu verwenden, wenn Ihr Integritätsschutz auf die Antwort angewendet wird.

    3. (Optional) Um die regionsübergreifende Inferenz für Ihren Integritätsschutz zu aktivieren, erweitern Sie die Option Regionsübergreifende Inferenz und wählen dann Regionsübergreifende Inferenz für Ihren Integritätsschutz aktivieren aus. Wählen Sie ein Integritätsschutzprofil, das das AWS-Regionen-Ziel definiert, an das Inferenzanfragen an den Integritätsschutz weitergeleitet werden können.

    4. (Optional) Standardmäßig ist Ihre Leitplanke mit einem verschlüsselt. Von AWS verwalteter Schlüssel Wenn Sie Ihren eigenen, kundenseitig verwalteten KMS-Schlüssel verwenden möchten, erweitern Sie die KMS-Schlüsselauswahl und aktivieren das Kontrollkästchen Verschlüsselungseinstellungen anpassen (erweitert).

      Sie können einen vorhandenen AWS KMS Schlüssel auswählen oder Schlüssel erstellen auswählen, um einen AWS KMS neuen zu erstellen.

    5. (Optional) Erweitern Sie den Bereich Tags, um Ihrem Integritätsschutz Tags hinzuzufügen. Wählen Sie dann für jedes von Ihnen definierte Tag die Option Neues Tag hinzufügen aus.

      Weitere Informationen finden Sie unter Markieren von Amazon-Bedrock-Ressourcen.

    6. Wählen Sie Weiter aus.

  4. Legen Sie auf der Seite Inhaltsfilter konfigurieren fest, wie stark Sie Inhalte herausfiltern möchten, die sich auf die unter So blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern definierten Kategorien beziehen. Gehen Sie dazu wie folgt vor:

    1. Wählen Sie Filter für schädliche Kategorien konfigurieren aus. Wählen Sie Text und/oder Bild aus, um Text- oder Bildinhalte aus Prompts oder Modellantworten zu filtern. Wählen Sie die Filterstufe Keine, Niedrig, Mittel oder Hoch aus, die Sie auf die einzelnen Kategorien anwenden möchten. Sie können auch verschiedene Filterstufen für Prompts oder Antworten verwenden. Sie können den Filter für Prompt-Angriffe in den schädlichen Kategorien auswählen. Konfigurieren Sie, wie streng die einzelnen Filter für die Prompts sein sollen, die der Benutzer dem Modell bereitstellt.

    2. Wählen Sie Blockieren oder Erkennen (keine Aktion) aus, um festzulegen, welche Aktion Ihr Integritätsschutz ergreifen soll, wenn schädliche Inhalte in Prompts und Antworten erkannt werden.

      Weitere Informationen finden Sie unter Optionen für den Umgang mit schädlichen Inhalten, die im Integritätsschutz für Amazon Bedrock erkannt werden.

    3. Wählen Sie unter Schwellenwert festlegen die Filterstufe Keine, Niedrig, Mittel oder Hoch aus, die Sie auf die einzelnen Kategorien anwenden möchten.

      Sie können auch verschiedene Filterstufen für Prompts und Antworten verwenden.

    4. Wählen Sie für die Inhaltsfilterstufe die Schutzstufe aus, die Ihr Integritätsschutz zum Filtern textbasierter Prompts und Antworten verwenden soll. Weitere Informationen finden Sie unter Schutzstufen für Integritätsschutzrichtlinien.

    5. Klicken Sie auf Weiter, um weitere Richtlinien nach Bedarf zu konfigurieren oder auf Überspringen zum Überprüfen und Erstellen, um die Erstellung Ihres Integritätsschutzes abzuschließen.

  5. Überprüfen Sie die Einstellungen für Ihren Integritätsschutz.

    1. Klicken Sie auf Bearbeiten in jedem Abschnitt, in dem Sie Änderungen vornehmen möchten.

    2. Wenn Sie mit der Konfiguration der Richtlinien fertig sind, klicken Sie auf Erstellen aus, um den Integritätsschutz zu erstellen.

API

Konfigurieren Sie Inhaltsfilter für Ihre Leitplanke, indem Sie eine CreateGuardrailAnfrage senden. Das Anfrageformat ist wie folgt:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Geben Sie einen name und eine description für den Integritätsschutz an.

  • Geben Sie in den Feldern blockedInputMessaging und blockedOutputsMessaging Meldungen ein, die angezeigt werden sollen, wenn der Integritätsschutz einen Prompt oder eine Modellantwort erfolgreich blockiert.

  • Geben Sie die Filterstärken für die schädlichen Kategorien an, die für das contentPolicyConfig Objekt verfügbar sind.

    Jedes Element in der filtersConfig-Liste gehört zu einer schädlichen Kategorie. Weitere Informationen finden Sie unter So blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern. Weitere Informationen zu den Feldern in einem Inhaltsfilter finden Sie unter. ContentFilter

    • (Optional) Geben Sie für inputAction und outputAction an, welche Aktion Ihr Integritätsschutz ergreifen soll, wenn schädliche Inhalte in Prompts und Antworten erkannt werden.

    • (Optional) Geben Sie die Maßnahme an, die ergriffen werden soll, wenn schädliche Inhalte in Prompts mit inputAction oder in Antworten mit outputAction erkannt werden. Wählen Sie BLOCK aus, um Inhalte zu blockieren und durch blockierte Nachrichten zu ersetzen oder NONE, wenn keine Aktion ausgeführt, sondern stattdessen Erfassungsinformationen zurückgegeben werden sollen. Weitere Informationen finden Sie unter Optionen für den Umgang mit schädlichen Inhalten, die im Integritätsschutz für Amazon Bedrock erkannt werden.

    • Geben Sie die Filterstärke für Prompts im inputStrength-Feld und für Modellantworten im outputStrength-Feld an.

    • Geben Sie die Kategorie im Feld type an.

  • (Optional) Geben Sie eine Schutzstufe für Ihren Integritätsschutz im tierConfig-Objekt innerhalb des contentPolicyConfig-Objekts an. Zu den Optionen gehören die Stufen STANDARD und CLASSIC.

    Weitere Informationen finden Sie unter Schutzstufen für Integritätsschutzrichtlinien.

  • (Optional) Um die regionsübergreifende Inferenz zu aktivieren, geben Sie ein Integritätsschutzprofil im crossRegionConfig-Objekt an. Dies ist erforderlich, wenn Sie die STANDARD-Stufe verwenden.

Das Antwortformat sieht wie folgt aus:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }