本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon Bedrock 护栏检测和筛选掉有害内容
Amazon Bedrock Guardrails 提供可配置的保护措施,帮助您构建安全的生成式 AI 应用程序。Amazon Bedrock Guardrails 通过跨基础模型 (FMs) 的全面安全和隐私控制,提供一致的用户体验,帮助检测和筛选不良内容,保护用户输入或模型响应中可能存在的敏感信息(不包括推理内容块)。
您可以在多个用例和应用程序中使用 Amazon Bedrock Guardrails。以下是一些示例:
-
一款聊天机器人应用程序,可帮助过滤有害的用户输入和有毒的模型响应。
-
一款银行应用程序,可帮助屏蔽与寻求或提供非法投资建议相关的用户查询或模拟回复。
-
用于汇总用户和座席之间的对话记录的呼叫中心应用程序可以使用护栏来编辑用户的个人身份信息(PII),以保护用户隐私。
Amazon Bedrock Guardrails 提供了以下保护措施(也称为过滤器)来检测和过滤不良内容:
-
内容过滤器-此过滤器可帮助您检测和过滤输入提示或模型响应中的有害文本或图像内容。系统基于一些预定义的有害内容类别(仇恨言论、侮辱性内容、色情内容、暴力内容、不当行为和提示攻击)进行检测来完成筛选。您可以根据自己的用例为每个类别配置过滤强度。经典和标准等级均支持这些类别。在标准层中,对不良内容的检测扩展到防止代码元素中引入的有害内容,包括注释、变量和函数名以及字符串文字。
-
拒绝的主题-您可以定义一组在应用程序上下文中不受欢迎的话题。如果系统在用户查询或模型响应中检测到这些主题,筛选条件将帮助屏蔽它们。在标准层中,对不良内容的检测扩展到防止代码元素中引入的有害内容,包括注释、变量和函数名以及字符串文字。
-
单词过滤器 — 您可以定义一组自定义单词或短语(完全匹配),以便在最终用户与生成式 AI 应用程序之间的交互中屏蔽这些单词或短语。例如,您可以屏蔽亵渎内容(使用 ready-to-use选项)以及诸如竞争对手姓名之类的自定义词语。
-
敏感信息过滤器-您可以配置此过滤器以帮助屏蔽或屏蔽用户输入和模型响应中的敏感信息,例如个人身份信息 (PII)。屏蔽或屏蔽是基于对实体中敏感信息的概率检测来完成的,例如SSN号、出生日期、地址等。此过滤器还允许配置基于正则表达式的模式检测(自定义正则表达式)。
-
情境基础检查 — 如果模型响应中的幻觉不在源中扎根(事实上不准确或添加了新信息),或者与用户的查询无关,则此过滤器可帮助您检测模型响应中的幻觉。例如,您可以在检索增强生成 (RAG) 应用程序中屏蔽或标记响应。如果模型的响应偏离了检索到的来源中的信息,或者没有回答用户的问题。
-
自动推理检查 — 此过滤器可帮助您根据一组逻辑规则验证基础模型响应的准确性。您可以使用自动推理检查功能来检测幻觉,提出更正建议,以及在模型响应中突出显示未明确说明的假设。
除了上述过滤器外,您还可以配置在用户输入或模型响应违反护栏中定义的过滤器时返回给用户的消息。
使用不同配置进行试验和基准测试,并借助内置测试窗口确保结果符合您的使用案例需求。创建护栏时,系统会自动生成工作草稿,供您进行迭代修改。您可以尝试不同的配置,并使用内置的测试窗口来确定它们能否满足您的应用场景的需求。确定配置正确无误后,您可以创建相应版本的护栏并将其应用于支持的基础模型。
在推理 API 调用 FMs 期间,可以通过指定护栏 ID 和版本直接使用护栏。护栏也可以直接通过 ApplyGuardrail API 使用,无需调用基础模型。如果使用护栏,它将根据定义的过滤器评估输入提示和调频完成情况。
对于检索增强生成 (RAG) 或对话应用程序,您可能需要仅评估用户输入提示,而忽略系统指令、搜索结果、对话历史记录或一些简短的示例。要有选择地评估输入提示的某一部分,请参阅 用标签标记用户输入以筛选内容 AWS SDK 仅能评估输入提示的某一部分,在包括 Bedrock Playground 和 Bedrock Guardrails 管理控制台在内的管理控制台上不可用。