So erkennen und filtern Sie schädliche Inhalte mithilfe vom Integritätsschutz für Amazon Bedrock - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So erkennen und filtern Sie schädliche Inhalte mithilfe vom Integritätsschutz für Amazon Bedrock

Integritätsschutz für Amazon Bedrock bietet Sicherheitsvorkehrungen, die Sie für Ihre generativen KI-Anwendungen auf Grundlage Ihrer Anwendungsfälle und verantwortungsvollen KI-Richtlinien konfigurieren können. Sie können mehrere Leitplanken erstellen, die auf unterschiedliche Anwendungsfälle zugeschnitten sind, und sie auf mehrere Basismodelle anwenden (FMs), um eine konsistente Benutzererfahrung zu gewährleisten und Sicherheits- und Datenschutzkontrollen für generative KI-Anwendungen zu standardisieren. Sie können Integritätsschutzversionen sowohl für Modell-Prompts als auch für Antworten in natürlicher Sprache verwenden.

Sie können Integritätsschutz für Amazon Bedrock auf verschiedene Weise verwenden, um Ihre generativen KI-Anwendungen zu schützen. Beispiel:

  • Eine Chatbot-Anwendung kann den Integritätsschutz verwenden, um schädliche Benutzereingaben und toxische Modellantworten auszufiltern.

  • Eine Banking-Anwendung kann den Integritätsschutz verwenden, um Benutzeranfragen oder Modellantworten zu blockieren, die mit der Suche nach oder der Bereitstellung von Anlageberatung verbunden sind.

  • Eine Callcenter-Anwendung zur Zusammenfassung von Gesprächsprotokollen zwischen Benutzern und Kundendienstmitarbeitern kann den Integritätsschutz verwenden, um die persönlich identifizierbaren Informationen (PII) der Benutzer zu redigieren, um die Privatsphäre der Benutzer zu schützen.

Integritätsschutz für Amazon Bedrock bietet die folgenden Sicherheitsvorkehrungen (auch als Richtlinien bezeichnet) zur Erkennung und Filterung schädlicher Inhalte:

  • Inhaltsfilter – Erkennen und filtern schädliche Text- oder Bildinhalte in Prompts oder Modellantworten. Die Filterung erfolgt auf Grundlage der Erkennung bestimmter vordefinierter Kategorien für schädliche Inhalte: Hass, Beleidigung, Sexualität, Gewalt, Fehlverhalten und Prompt-Angriffe. Sie können die Filterstärke für jede dieser Kategorien anpassen. Diese Kategorien werden sowohl für die Stufen Classic als auch Standard unterstützt. Bei der Stufe Standard wird die Erkennung unerwünschter Inhalte auf den Schutz vor schädlichen Inhalten in Codeelementen wie Kommentaren, Variablen- und Funktionsnamen sowie Zeichenfolgenliteralen ausgedehnt.

  • Abgelehnte Themen – Definieren Sie eine Reihe von Themen, die im Kontext Ihrer Anwendung unerwünscht sind. Der Filter hilft dabei, sie zu blockieren, wenn sie in Benutzeranfragen oder Modellantworten entdeckt werden. Bei der Stufe Standard wird die Erkennung unerwünschter Inhalte auf den Schutz vor schädlichen Inhalten in Codeelementen wie Kommentaren, Variablen und Funktionsnamen sowie Zeichenfolgenliteralen ausgedehnt.

  • Wortfilter – Konfigurieren Sie Filter, um unerwünschte Wörter, Wortgruppen und Schimpfwörter (exakte Übereinstimmung) zu blockieren. Solche Wörter können beleidigende Begriffe, Namen von Wettbewerbern usw. enthalten.

  • Filter für vertrauliche Informationen – Konfigurieren Sie Filter, um vertrauliche Informationen wie persönlich identifizierbare Informationen (PII) oder benutzerdefinierte reguläre Ausdrücke in Benutzereingaben und Modellantworten zu blockieren oder zu maskieren. Das Blockieren oder Maskieren erfolgt auf der Grundlage der probabilistischen Erkennung vertraulicher Informationen in Standardformaten in Entitäten wie SSN-Nummer, Geburtsdatum, Adresse usw. Dies ermöglicht auch die Konfiguration der Erkennung von Mustern für Identifikatoren, die auf regulären Ausdrücken basieren.

  • Kontextuelle Begründungsprüfungen – Helfen dabei, Halluzinationen in Modellantworten zu erkennen und zu filtern, basierend auf der Begründung in einer Quelle und der Relevanz für die Benutzeranfrage.

  • Automated-Reasoning-Prüfungen – Helfen dabei, die Richtigkeit der Antworten des Basismodells anhand einer Reihe logischer Regeln zu überprüfen. Mithilfe der Automated-Reasoning-Prüfungen können Sie Halluzinationen erkennen, Korrekturen vorschlagen und unausgesprochene Annahmen in Modellantworten hervorheben.

Zusätzlich zu den oben genannten Richtlinien können Sie die Nachrichten auch so konfigurieren, dass sie an den Benutzer zurückgesendet werden, wenn eine Benutzereingabe oder eine Modellantwort gegen die im Integritätsschutz definierten Richtlinien verstößt.

Experimentieren und vergleichen Sie mit verschiedenen Konfigurationen und verwenden Sie das integrierte Testfenster, um sicherzustellen, dass die Ergebnisse den Anforderungen Ihres Anwendungsfalls erfüllen. Wenn Sie einen Integritätsschutz erstellen, steht Ihnen automatisch ein Arbeitsentwurf zur Verfügung, den Sie iterativ ändern können. Experimentieren Sie mit verschiedenen Konfigurationen und verwenden Sie das integrierte Testfenster, um zu prüfen, ob sie für Ihren Anwendungsfall geeignet sind. Wenn Sie mit einer Reihe von Konfigurationen zufrieden sind, können Sie eine Integritätsschutzversion erstellen und diese mit unterstützten Basismodellen verwenden.

Guardrails können FMs während des Aufrufs der Inferenz-API direkt mit verwendet werden, indem die Guardrail-ID und die Version angegeben werden. Ein Integritätsschutz kann außerdem direkt über die ApplyGuardrail-API verwendet werden, ohne dass die Basismodelle aufgerufen werden müssen. Wenn ein Integritätsschutz verwendet wird, bewertet dieser die Prompts und die FM-Abschlüsse anhand der definierten Richtlinien.

Bei Retrieval Augmented Generation (RAG) oder Konversationsanwendungen müssen Sie möglicherweise nur die Benutzereingaben im Prompt auswerten und können Systemanweisungen, Suchergebnisse, den Konversationsverlauf oder einige kurze Beispiele verwerfen. Informationen zur selektiven Bewertung eines Prompt-Abschnitts finden Sie unter So wenden Sie Tags für die Inhaltsfilterung auf Benutzereingaben an.