Blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern

Amazon Bedrock Guardrails unterstützt Inhaltsfilter, um schädliche Benutzereingaben und modellgenerierte Ausgaben in natürlicher Sprache zu erkennen und zu filtern. Inhaltsfilter werden in den folgenden Kategorien unterstützt:

Hass

  • Beschreibt Eingabeaufforderungen und modelliert Reaktionen, die eine Person oder Gruppe auf der Grundlage einer Identität (wie Rasse, ethnische Zugehörigkeit, Geschlecht, Religion, sexuelle Orientierung, Fähigkeiten und nationale Herkunft) diskriminieren, kritisieren, beleidigen, denunzieren oder entmenschlichen.

Beleidigungen

  • Beschreibt Eingabeaufforderungen und Modellantworten, die erniedrigende, demütigende, spöttische, beleidigende oder herabsetzende Sprache beinhalten. Diese Art von Sprache wird auch als Mobbing bezeichnet.

Sexuell

  • Beschreibt Eingabeaufforderungen und Modellantworten, die auf sexuelles Interesse, sexuelle Aktivität oder sexuelle Erregung hinweisen, wobei direkte oder indirekte Hinweise auf Körperteile, körperliche Merkmale oder Geschlecht verwendet werden.

Gewalt

  • Beschreibt Eingabeaufforderungen und Modellreaktionen, zu denen auch die Verherrlichung oder Androhung gehört, einer Person, Gruppe oder Sache körperlichen Schmerz, Verletzung oder Verletzung zuzufügen.

Fehlverhalten

  • Beschreibt Eingabeaufforderungen und Modellantworten, mit denen Informationen über kriminelle Aktivitäten oder die Schädigung, den Betrug oder die Ausnutzung einer Person, Gruppe oder Institution abgerufen oder bereitgestellt werden.

Konfigurieren Sie Inhaltsfilter für Ihre Leitplanke

Sie können Inhaltsfilter für Ihre Leitplanke mithilfe der AWS Management Console oder der Amazon Bedrock API konfigurieren.

Console
  1. Melden Sie sich bei der AWS Management Console mit einer IAM-Identität an, die berechtigt ist, die Amazon Bedrock-Konsole zu verwenden. Öffnen Sie dann die Amazon Bedrock-Konsole unter https://console.aws.amazon.com/bedrock/.

  2. Wählen Sie im linken Navigationsbereich Guardrails und anschließend Create Guardrails aus.

  3. Gehen Sie auf der Seite „Leitplankendetails angeben“ wie folgt vor:

    1. Geben Sie im Abschnitt Details zur Leitplanke einen Namen und optional eine Beschreibung für die Leitplanke ein.

    2. Geben Sie unter Nachrichten für blockierte Eingabeaufforderungen eine Meldung ein, die angezeigt wird, wenn Ihre Schutzplanke angewendet wird. Aktivieren Sie das Kontrollkästchen Dieselbe blockierte Nachricht auf Antworten anwenden, um dieselbe Nachricht zu verwenden, wenn Ihre Leitplanke auf die Antwort angewendet wird.

    3. (Optional) Um die regionsübergreifende Inferenz für Ihre Leitplanke zu aktivieren, erweitern Sie die Option Regionalübergreifende Inferenz und wählen Sie dann Regionsübergreifende Inferenz für Ihre Leitplanke aktivieren aus. Wählen Sie ein Leitplankenprofil, das das Ziel definiert, an das Leitplanken-Inferenzanfragen weitergeleitet werden können. AWS-Regionen

    4. (Optional) Standardmäßig ist Ihre Leitplanke mit einem verschlüsselt. Von AWS verwalteter Schlüssel Wenn Sie Ihren eigenen, vom Kunden verwalteten KMS-Schlüssel verwenden möchten, erweitern Sie die KMS-Schlüsselauswahl und aktivieren Sie das Kontrollkästchen Verschlüsselungseinstellungen anpassen (erweitert).

      Sie können einen vorhandenen AWS KMS Schlüssel auswählen oder Schlüssel erstellen auswählen, um einen neuen AWS KMS Schlüssel zu erstellen.

    5. (Optional) Um Ihrer Leitplanke Tags hinzuzufügen, erweitern Sie den Bereich Tags. Wählen Sie dann für jedes von Ihnen definierte Tag die Option Neues Tag hinzufügen aus.

      Weitere Informationen finden Sie unter Verschlagwortung von Amazon Bedrock-Ressourcen.

    6. Wählen Sie Weiter aus.

  4. Legen Sie auf der Seite Inhaltsfilter konfigurieren fest, wie stark Sie Inhalte herausfiltern möchten, die sich auf die in Blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern definierten Kategorien beziehen. Gehen Sie dazu wie folgt vor:

    1. Wählen Sie Filter für schädliche Kategorien konfigurieren aus. Wählen Sie Text und/oder Bild aus, um Text- oder Bildinhalte aus Eingabeaufforderungen oder Antworten auf das Modell zu filtern. Wählen Sie „Keine“, „Niedrig“, „Mittel“ oder „Hoch“ für die Filterstufe, die Sie auf jede Kategorie anwenden möchten. Sie können verschiedene Filterstufen für Eingabeaufforderungen oder Antworten wählen. Sie können den Filter für Prompt-Angriffe in den Kategorien „schädlich“ auswählen. Konfigurieren Sie, wie streng jeder Filter für die Eingabeaufforderungen sein soll, die der Benutzer dem Modell gibt.

    2. Wählen Sie Blockieren oder Erkennen (keine Aktion), um festzulegen, welche Aktion Ihre Schutzplanke ergreift, wenn sie schädliche Inhalte in Eingabeaufforderungen und Antworten erkennt.

      Weitere Informationen finden Sie unter Optionen für den Umgang mit schädlichen Inhalten, die von Amazon Bedrock Guardrails erkannt wurden.

    3. Wählen Sie unter Schwellenwert festlegen die Option Keine, Niedrig, Mittel oder Hoch für die Filterstufe aus, die Sie auf jede Kategorie anwenden möchten.

      Sie können verschiedene Filterstufen für Eingabeaufforderungen und Antworten wählen.

    4. Wählen Sie für die Stufe Inhaltsfilter die Schutzstufe aus, die Ihre Leitplanke zum Filtern textbasierter Eingabeaufforderungen und Antworten verwenden soll. Weitere Informationen finden Sie unter Schutzstufen für Guardrails-Policen.

    5. Wählen Sie Weiter, um weitere Richtlinien nach Bedarf zu konfigurieren, oder „Zur Überprüfung überspringen“ und „Erstellen“, um die Erstellung Ihrer Schutzplanke abzuschließen.

  5. Überprüfen Sie die Einstellungen für Ihre Leitplanke.

    1. Wählen Sie in einem Abschnitt, an dem Sie Änderungen vornehmen möchten, die Option Bearbeiten aus.

    2. Wenn Sie mit der Konfiguration der Richtlinien fertig sind, wählen Sie Erstellen aus, um die Leitplanke zu erstellen.

API

Konfigurieren Sie Inhaltsfilter für Ihre Leitplanke, indem Sie eine Anfrage senden. CreateGuardrail Das Anforderungsformat lautet wie folgt:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Geben Sie ein name und description für die Leitplanke an.

  • Geben Sie in den Feldern und Meldungen für den Fall ein, dass die Leitplanke eine Aufforderung oder eine Modellantwort erfolgreich blockiert. blockedInputMessaging blockedOutputsMessaging

  • Geben Sie die Filterstärken für die schädlichen Kategorien an, die für das contentPolicyConfig Objekt verfügbar sind.

    Jedes Element in der filtersConfig Liste gehört zu einer schädlichen Kategorie. Weitere Informationen finden Sie unter Blockieren Sie schädliche Wörter und Konversationen mit Inhaltsfiltern. Weitere Informationen zu den Feldern in einem Inhaltsfilter finden Sie unter ContentFilter.

    • (Optional) Geben Sie für inputAction und anoutputAction, welche Aktion Ihre Leitplanke ergreift, wenn sie schädliche Inhalte in Eingabeaufforderungen und Antworten erkennt.

    • (Optional) Geben Sie die Aktion an, die ergriffen werden soll, wenn schädliche Inhalte in Eingabeaufforderungen oder Antworten mithilfe von inputAction erkannt werden. outputAction Wählen BLOCK Sie aus, ob Inhalte blockiert und durch blockierte Nachrichten ersetzt werden sollen, oder NONE ob Sie keine Maßnahme ergreifen, aber Erkennungsinformationen zurückgeben möchten. Weitere Informationen finden Sie unter Optionen für den Umgang mit schädlichen Inhalten, die von Amazon Bedrock Guardrails erkannt wurden.

    • Geben Sie die Stärke des Filters für Eingabeaufforderungen im inputStrength Feld und für Modellantworten im outputStrength Feld an.

    • Geben Sie die Kategorie im type Feld an.

  • (Optional) Geben Sie eine Schutzstufe für Ihre Leitplanke für das tierConfig Objekt innerhalb des contentPolicyConfig Objekts an. Zu den Optionen gehören STANDARD und Stufen. CLASSIC

    Weitere Informationen finden Sie unter Schutzstufen für Guardrails-Policen.

  • (Optional) Um die regionsübergreifende Inferenz zu aktivieren, geben Sie ein Leitplankenprofil für das Objekt an. crossRegionConfig Dies ist erforderlich, wenn Sie die Stufe verwenden. STANDARD

Das Antwortformat sieht wie folgt aus:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }