使用 Amazon Bedrock 护栏检测和筛选掉有害内容 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Bedrock 护栏检测和筛选掉有害内容

Amazon Bedrock 护栏提供了保护措施,您可以根据使用案例和负责任的人工智能策略,为生成式人工智能配置这些措施。您可以创建针对不同用例量身定制的多个护栏,并将其应用于多个基础模型 (FMs),从而在生成式 AI 应用程序中提供一致的用户体验并标准化安全和隐私控制。您可以对使用自然语言的模型提示和响应使用护栏。

您可以通过多种方式使用 Amazon Bedrock 护栏,来保护生成式人工智能应用程序。例如:

  • 聊天机器人应用程序可以使用护栏来帮助筛选不良的用户输入和有害的模型响应。

  • 银行应用程序可以使用护栏来帮助屏蔽与寻求或提供投资建议相关的用户查询或模型响应。

  • 用于汇总用户和座席之间的对话记录的呼叫中心应用程序可以使用护栏来编辑用户的个人身份信息(PII),以保护用户隐私。

Amazon Bedrock 护栏提供了以下保护措施(也称为策略)来检测和筛选掉有害内容:

  • 内容筛选条件 – 检测并筛选输入提示或模型响应中的有害文本或图像内容。系统基于一些预定义的有害内容类别(仇恨言论、侮辱性内容、色情内容、暴力内容、不当行为和提示攻击)进行检测来完成筛选。您还可以调整每个类别的筛选条件强度。经典和标准等级均支持这些类别。在标准层中,对不良内容的检测扩展到防止代码元素中引入的有害内容,包括注释、变量和函数名以及字符串文字。

  • 拒绝的主题 – 定义一组在您的应用程序上下文中不可接受的主题。如果系统在用户查询或模型响应中检测到这些主题,筛选条件将帮助屏蔽它们。在标准层中,对不良内容的检测扩展到防止代码元素中引入的有害内容,包括注释、变量和函数名以及字符串文字。

  • 单词筛选条件:配置筛选条件,用于阻止不受欢迎的单词、短语和不雅词(完全匹配)。包括冒犯性用语、竞争对手名称等。

  • 敏感信息筛选条件 – 配置筛选条件来帮助屏蔽或掩蔽敏感信息,例如用户输入和模型响应中的个人身份信息(PII)或自定义正则表达式。阻止或掩蔽是基于对实体中标准格式的敏感信息(例如 SSN 编号、出生日期、地址等)进行概率检测来完成的。此功能还支持配置基于正则表达式的标识符模式检测。

  • 上下文一致性检查 – 根据与源内容的一致性以及与用户查询的相关性,检测和筛选模型响应中的幻觉。

  • 自动推理检查功能 – 帮助您基于一组逻辑规则,来验证基础模型响应的准确率。您可以使用自动推理检查功能来检测幻觉,提出更正建议,以及在模型响应中突出显示未明确说明的假设。

除了上述策略外,您还可以配置当用户输入或模型响应违反护栏中定义的策略时返回给用户的消息。

使用不同配置进行试验和基准测试,并借助内置测试窗口确保结果符合您的使用案例需求。创建护栏时,系统会自动生成工作草稿,供您进行迭代修改。您可以尝试不同的配置,并使用内置的测试窗口来确定它们能否满足您的应用场景的需求。确定配置正确无误后,您可以创建相应版本的护栏并将其应用于支持的基础模型。

在推理 API 调用 FMs 期间,可以通过指定护栏 ID 和版本直接使用护栏。护栏也可以直接通过 ApplyGuardrail API 使用,无需调用基础模型。如果使用护栏,它将根据定义的策略评估输入提示和基础模型的输出。

对于检索增强生成(RAG)或对话应用程序,您可能只需要评估输入提示中的用户输入,而忽略系统指令、搜索结果、对话历史记录或少量简短的样本。要选择性地评估输入提示的某一部分,请参阅用标签标记用户输入以筛选内容