So blockieren Sie verweigerte Themen, um schädliche Inhalte zu entfernen - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So blockieren Sie verweigerte Themen, um schädliche Inhalte zu entfernen

Sie können eine Reihe von abgelehnten Themen im Integritätsschutz angeben, die im Kontext Ihrer generativen KI-Anwendung unerwünscht sind. Beispielsweise möchte eine Bank möglicherweise, dass ihr KI-Assistent Gespräche über Anlageberatung oder Kryptowährungen vermeidet.

Modellaufforderungen und Antworten in natürlicher Sprache sowie codebezogene Inhalte der Stufe Standard werden anhand jedes abgelehnten Themas in Ihrer Leitplanke bewertet. Wenn eins der abgelehnten Themen erkannt wird, gibt Ihr Integritätsschutz eine blockierte Meldung zurück.

Sie erstellen Sie ein abgelehntes Thema mit den folgenden Parametern, anhand derer Ihr Integritätsschutz erkennt, ob ein Prompt oder Antwort zu dem Thema gehört:

  • Name – Der Name des Themas. Der Name sollte ein Substantiv oder eine Wortgruppe sein. Das Thema sollte im Namen nicht beschrieben werden. Beispiel:

    • Investment Advice

  • Definition – Bis zu 200 Zeichen, die den Themeninhalt zusammenfassen. Die Definition sollte den Themeninhalt und die Unterthemen beschreiben.

    Im Folgenden finden Sie eine Beispielthemendefinition, die Sie bereitstellen können:

    Investment advice is inquiries, guidance, or recommendations about the management or allocation of funds or assets with the goal of generating returns or achieving specific financial objectives.

  • Beispielwortgruppen (optional) – Eine Liste mit bis zu fünf Beispielwortgruppen, die sich auf das Thema beziehen. Jede Wortgruppe kann bis zu 100 Zeichen lang sein. Ein Beispiel wäre ein Prompt oder eine Fortsetzung, die zeigen, welche Art von Inhalt herausgefiltert werden sollte. Beispiel:

    • Is investing in the stocks better than bonds?

    • Should I invest in gold?

Best Practices für die Erstellung abgelehnter Themen

  • Definieren Sie das Thema klar und präzise. Eine klare und eindeutige Themendefinition kann die Genauigkeit der Themenerkennung verbessern. Beispielsweise könnte ein Thema zur Erkennung von Abfragen oder Aussagen im Zusammenhang mit Kryptowährungen als Question or information associated with investing, selling, transacting, or procuring cryptocurrencies definiert werden.

  • Die Themendefinition sollte keine Beispiele oder Themendefinition enthalten. Block all contents associated to cryptocurrency wäre zum Beispiel eine Anweisung und nicht eine Themendefinition. Solche Anweisungen dürfen nicht als Teil der Themendefinitionen verwendet werden.

  • Definieren Sie keine negativen Themen oder Ausnahmen. All contents except medical information oder Contents not containing medical information sind Beispiele für negative Themendefinitionen und dürfen nicht verwendet werden.

  • Verwenden Sie keine abgelehnten Themen, um Entitäten oder Wörter zu erfassen. Zum Beispiel Statement or questions containing the name of a person "X" oder Statements with a competitor name Y. Die Themendefinitionen stellen ein übergeordnetes Thema oder einen Gegenstand dar, und der Integritätsschutz bewertet Eingaben kontextbezogen. Die Themenfilterung sollte nicht verwendet werden, um einzelne Wörter oder Entitätstypen zu erfassen. Weitere Informationen finden Sie unter So entfernen Sie persönlich identifizierbare Informationen aus Konversationen, indem Sie Filter für sensible Informationen verwenden oder So entfernen Sie eine bestimmte Liste von Wörtern und Ausdrücken aus Konversationen mithilfe von Wortfiltern für diese Anwendungsfälle.

Hinzufügen von abgelehnten Themen zum Integritätsschutz

Sie können Ihrer Leitplanke bis zu 30 abgelehnte Themen hinzufügen, indem Sie die AWS-Managementkonsole oder Amazon Bedrock API verwenden.

Console
  1. Melden Sie sich bei der AWS-Managementkonsole mit einer IAM-Identität an, die berechtigt ist, die Amazon Bedrock-Konsole zu verwenden. Öffnen Sie dann die Amazon Bedrock-Konsole unter https://console.aws.amazon.com/bedrock.

  2. Wählen Sie in der linken Navigationsleiste Integritätsschutz und dann Integritätsschutz erstellen aus.

  3. Führen Sie auf der Seite Integritätsschutzdetails bereitstellen die folgenden Schritte aus:

    1. Geben Sie im Abschnitt Integritätsschutzdetails einen Namen und optional eine Beschreibung für den Integritätsschutz an.

    2. Geben Sie unter Nachrichten für blockierte Prompts eine Meldung ein, die angezeigt wird, wenn Ihr Integritätsschutz angewendet wird. Aktivieren Sie das Kontrollkästchen Dieselbe blockierte Nachricht auf Antworten anwenden, um dieselbe Nachricht zu verwenden, wenn Ihr Integritätsschutz auf die Antwort angewendet wird.

    3. (Optional) Um die regionsübergreifende Inferenz für Ihren Integritätsschutz zu aktivieren, erweitern Sie die Option Regionsübergreifende Inferenz und wählen dann Regionsübergreifende Inferenz für Ihren Integritätsschutz aktivieren aus. Wählen Sie ein Guardrail-Profil, das das Ziel definiert, an das AWS-Regionen Guardrail-Inferenzanfragen weitergeleitet werden können.

    4. (Optional) Standardmäßig ist Ihre Leitplanke mit einem verschlüsselt. Von AWS verwalteter Schlüssel Wenn Sie Ihren eigenen, kundenseitig verwalteten KMS-Schlüssel verwenden möchten, erweitern Sie die KMS-Schlüsselauswahl und aktivieren das Kontrollkästchen Verschlüsselungseinstellungen anpassen (erweitert).

      Sie können einen vorhandenen AWS KMS Schlüssel auswählen oder Schlüssel erstellen auswählen, um einen neuen AWS KMS Schlüssel zu erstellen.

    5. (Optional) Erweitern Sie den Bereich Tags und wählen Sie dann für jedes von Ihnen definierte Tag die Option Neues Tag hinzufügen aus, um Ihrem Integritätsschutz Tags hinzuzufügen.

      Weitere Informationen finden Sie unter Markieren von Amazon-Bedrock-Ressourcen.

    6. Wählen Sie Weiter aus.

  4. Wenn Sie zur Seite Abgelehnte Themen hinzufügen kommen, wählen Sie Abgelehntes Thema hinzufügen aus und gehen wie folgt vor:

    1. Geben Sie den Namen des neuen Themas ein.

    2. Definieren Sie das Thema unter Definition. Richtlinien für die Definition eines abgelehnten Themas finden Sie unter So blockieren Sie verweigerte Themen, um schädliche Inhalte zu entfernen.

    3. (Optional) Geben Sie unter Eingabe an, ob die Integritätsschutzbewertung für Modell-Prompts aktiviert sein soll. Wenn diese Option aktiviert ist, wählen Sie aus, welche Aktion Ihr Integritätsschutz einschließen soll. Die Aktion Blockieren ist standardmäßig aktiviert. Weitere Informationen finden Sie unter Optionen für den Umgang mit schädlichen Inhalten, die im Integritätsschutz für Amazon Bedrock erkannt werden.

    4. (Optional) Geben Sie unter Ausgabe an, ob die Integritätsschutzbewertung für Modellantworten aktiviert sein soll. Wenn diese Option aktiviert ist, wählen Sie aus, welche Aktion Ihr Integritätsschutz bei Antworten ausführen soll. Die Aktion Blockieren ist standardmäßig aktiviert. Weitere Informationen finden Sie unter Optionen für den Umgang mit schädlichen Inhalten, die im Integritätsschutz für Amazon Bedrock erkannt werden.

    5. (Optional) Erweitern Sie Beispielwortgruppen hinzufügen und geben Sie eine Wortgruppe ein, die repräsentativ für Prompts oder Antworten zu diesem Thema ist. Sie können bis zu fünf Wortgruppen eingeben. Klicken Sie für jede Wortgruppe, die Sie hinzufügen, auf Wortgruppe hinzufügen.

    6. Für Abgelehnte Themenstufe wählen Sie die Schutzstufe aus, die Ihr Integritätsschutz zum Blockieren von Themen in Prompts und Antworten verwenden soll. Weitere Informationen finden Sie unter Schutzstufen für Integritätsschutzrichtlinien.

    7. Wenn Sie mit der Konfiguration des abgelehnten Themas fertig sind, klicken Sie auf Bestätigen.

    8. Wiederholen Sie die Schritte oben, um weitere abgelehnte Themen zu erstellen.

    9. Klicken Sie auf Weiter, um weitere Richtlinien nach Bedarf zu konfigurieren oder auf Überspringen zum Überprüfen und Erstellen, um die Erstellung Ihres Integritätsschutzes abzuschließen.

  5. Überprüfen Sie die Einstellungen für Ihren Integritätsschutz.

    1. Klicken Sie auf Bearbeiten in jedem Abschnitt, in dem Sie Änderungen vornehmen möchten.

    2. Wenn Sie mit der Konfiguration der Richtlinien fertig sind, klicken Sie auf Erstellen aus, um den Integritätsschutz zu erstellen.

API

Fügen Sie abgelehnte Themen zu Ihrer Leitplanke hinzu, indem Sie eine CreateGuardrailAnfrage senden. Das Anfrageformat sieht wie folgt aus:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "topicPolicyConfig": { "topicsConfig": [ { "definition": "string", "examples": [ "string" ], "inputAction": "BLOCK | NONE", "inputEnabled": true, "name": "string", "outputAction": "BLOCK | NONE", "outputEnabled": true, "type": "DENY" }, "tierConfig": { "tierName": "CLASSIC | STANDARD" }, ] }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Geben Sie in den Feldern blockedInputMessaging und blockedOutputsMessaging Meldungen ein, die angezeigt werden sollen, wenn der Integritätsschutz einen Prompt oder eine Modellantwort erfolgreich blockiert.

  • Geben Sie im topicPolicyConfig-Objekt Themen für den Integritätsschutz an, die abgelehnt werden sollen. Jedes Element in der topicsConfig-Liste bezieht sich auf ein Thema.

    • Geben Sie einen name und eine definition für das Thema an, das abgelehnt werden soll.

    • Geben Sie im Feld type DENY an.

    • Geben Sie die Aktion an, die ausgeführt werden soll, wenn das Thema in Prompts über inputAction oder in Antworten über outputAction erkannt wird. Wählen Sie BLOCK aus, um Inhalte zu blockieren und durch blockierte Nachrichten zu ersetzen oder NONE, wenn keine Aktion ausgeführt, sondern stattdessen Erfassungsinformationen zurückgegeben werden sollen. Weitere Informationen finden Sie unter Optionen für den Umgang mit schädlichen Inhalten, die im Integritätsschutz für Amazon Bedrock erkannt werden.

    • Setzen Sie inputEnabled und outputEnabled, um zu steuern, ob die Integritätsschutzbewertung für Modell-Prompts und Antworten aktiviert sein soll.

    • (Optional) Geben Sie in der examples-Liste bis zu fünf Beispielwortgruppen an, die Prompts oder Antworten zu diesem Thema darstellen sollen.

  • (Optional) Geben Sie eine Schutzstufe für Ihren Integritätsschutz im tierConfig-Objekt an. Zu den Optionen gehören die Stufen STANDARD und CLASSIC.

    Weitere Informationen finden Sie unter Schutzstufen für Integritätsschutzrichtlinien.

  • (Optional) Um die regionsübergreifende Inferenz zu aktivieren, geben Sie ein Integritätsschutzprofil im crossRegionConfig-Objekt an. Dies ist erforderlich, wenn Sie die STANDARD-Stufe verwenden.

  • Geben Sie einen name und eine description für den Integritätsschutz an.

Das Antwortformat sieht wie folgt aus:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }