So erkennen und filtern Sie schädliche Inhalte mithilfe vom Integritätsschutz für Amazon Bedrock

Amazon Bedrock Guardrails bietet konfigurierbare Schutzmaßnahmen, mit denen Sie sichere generative KI-Anwendungen entwickeln können. Mit umfassenden Sicherheits- und Datenschutzkontrollen für alle Foundation-Modelle (FMs) bietet Amazon Bedrock Guardrails eine konsistente Benutzererfahrung, um unerwünschte Inhalte zu erkennen und zu filtern und sensible Informationen zu schützen, die in Benutzereingaben oder Modellantworten enthalten sein könnten (mit Ausnahme von Inhaltsblöcken mit Argumentation).

Sie können Amazon Bedrock Guardrails für mehrere Anwendungsfälle und Anwendungen verwenden. Im Folgenden finden Sie einige Beispiele:

Eine Chatbot-Anwendung, mit der schädliche Benutzereingaben und giftige Modellantworten herausgefiltert werden können.
Eine Bankanwendung, die dabei hilft, Benutzeranfragen zu blockieren oder Antworten zu modellieren, die im Zusammenhang mit der Suche oder Bereitstellung illegaler Anlageberatung stehen.
Eine Callcenter-Anwendung zur Zusammenfassung von Gesprächsprotokollen zwischen Benutzern und Kundendienstmitarbeitern kann den Integritätsschutz verwenden, um die persönlich identifizierbaren Informationen (PII) der Benutzer zu redigieren, um die Privatsphäre der Benutzer zu schützen.

Amazon Bedrock Guardrails bietet die folgenden Sicherheitsvorkehrungen (auch als Filter bezeichnet), um unerwünschte Inhalte zu erkennen und zu filtern:

Inhaltsfilter — Mit diesem Filter können Sie schädliche Text- oder Bildinhalte in Eingabeaufforderungen oder Modellantworten erkennen und filtern. Die Filterung erfolgt auf Grundlage der Erkennung bestimmter vordefinierter Kategorien für schädliche Inhalte: Hass, Beleidigung, Sexualität, Gewalt, Fehlverhalten und Prompt-Angriffe. Sie können die Filterstärke für jede dieser Kategorien auf der Grundlage Ihrer Anwendungsfälle konfigurieren. Diese Kategorien werden sowohl für die Stufen Classic als auch Standard unterstützt. Bei der Stufe Standard wird die Erkennung unerwünschter Inhalte auf den Schutz vor schädlichen Inhalten in Codeelementen wie Kommentaren, Variablen- und Funktionsnamen sowie Zeichenfolgenliteralen ausgedehnt.
Abgelehnte Themen — Sie können eine Reihe von Themen definieren, die im Kontext Ihrer Anwendung unerwünscht sind. Der Filter hilft dabei, sie zu blockieren, wenn sie in Benutzeranfragen oder Modellantworten entdeckt werden. Bei der Stufe Standard wird die Erkennung unerwünschter Inhalte auf den Schutz vor schädlichen Inhalten in Codeelementen wie Kommentaren, Variablen und Funktionsnamen sowie Zeichenfolgenliteralen ausgedehnt.
Wortfilter — Sie können eine Reihe von benutzerdefinierten Wörtern oder Ausdrücken (exakte Übereinstimmung) definieren, die Sie bei der Interaktion zwischen Endbenutzern und generativen KI-Anwendungen blockieren möchten. Sie können beispielsweise Schimpfwörter (verwenden Sie eine ready-to-use Option) sowie benutzerdefinierte Wörter wie Konkurrenznamen blockieren.
Filter für vertrauliche Informationen — Sie können diesen Filter so konfigurieren, dass vertrauliche Informationen, wie z. B. personenbezogene Daten (PII), in Benutzereingaben und Modellantworten blockiert oder maskiert werden. Das Blockieren oder Maskieren erfolgt auf der Grundlage der probabilistischen Erkennung vertraulicher Informationen in Entitäten wie der SSN-Nummer, dem Geburtsdatum, der Adresse usw. Dieser Filter ermöglicht auch die Konfiguration der Erkennung von Mustern auf Basis regulärer Ausdrücke (benutzerdefinierter Regex).
Kontextuelle Grundprüfungen — Dieser Filter hilft Ihnen dabei, Halluzinationen in Modellantworten zu erkennen, wenn sie nicht in der Quelle begründet sind (sachlich ungenau sind oder neue Informationen hinzufügen) oder für die Abfrage des Benutzers irrelevant sind. Sie können beispielsweise Antworten in RAG-Anwendungen (Retrieval-Augmented Generation) blockieren oder kennzeichnen. Wenn die Modellantworten von den Informationen in der abgerufenen Quelle abweichen oder die Frage des Benutzers nicht beantworten.
Automatisierte Argumentationsprüfungen — Mit diesem Filter können Sie die Richtigkeit der Antworten des Basismodells anhand einer Reihe logischer Regeln überprüfen. Mithilfe der Automated-Reasoning-Prüfungen können Sie Halluzinationen erkennen, Korrekturen vorschlagen und unausgesprochene Annahmen in Modellantworten hervorheben.

Zusätzlich zu den oben genannten Filtern können Sie die Meldungen auch so konfigurieren, dass sie an den Benutzer zurückgesendet werden, wenn eine Benutzereingabe oder eine Modellantwort gegen die in der Leitplanke definierten Filter verstößt.

Experimentieren und vergleichen Sie mit verschiedenen Konfigurationen und verwenden Sie das integrierte Testfenster, um sicherzustellen, dass die Ergebnisse den Anforderungen Ihres Anwendungsfalls erfüllen. Wenn Sie einen Integritätsschutz erstellen, steht Ihnen automatisch ein Arbeitsentwurf zur Verfügung, den Sie iterativ ändern können. Experimentieren Sie mit verschiedenen Konfigurationen und verwenden Sie das integrierte Testfenster, um zu prüfen, ob sie für Ihren Anwendungsfall geeignet sind. Wenn Sie mit einer Reihe von Konfigurationen zufrieden sind, können Sie eine Integritätsschutzversion erstellen und diese mit unterstützten Basismodellen verwenden.

Guardrails können FMs während des Aufrufs der Inferenz-API direkt mit verwendet werden, indem die Guardrail-ID und die Version angegeben werden. Ein Integritätsschutz kann außerdem direkt über die ApplyGuardrail-API verwendet werden, ohne dass die Basismodelle aufgerufen werden müssen. Wenn eine Guardrail verwendet wird, werden die Eingabeaufforderungen und die FM-Vervollständigungen anhand der definierten Filter bewertet.

Bei Retrieval Augmented Generation (RAG) oder Konversationsanwendungen müssen Sie möglicherweise nur Benutzereingabeaufforderungen auswerten und gleichzeitig Systemanweisungen, Suchergebnisse, den Konversationsverlauf oder einige kurze Beispiele verwerfen. Informationen zur selektiven Bewertung eines Abschnitts der Eingabeaufforderung finden Sie unter So wenden Sie Tags für die Inhaltsfilterung auf Benutzereingaben an Die Fähigkeit, nur einen Abschnitt der Eingabeaufforderung auszuwerten, ist über das AWS-SDK verfügbar und nicht auf der Managementkonsole verfügbar, einschließlich der Bedrock Playground- und der Bedrock Guardrails-Verwaltungskonsole.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Promptinjektion – Sicherheit

-Übersicht