本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建护栏
Amazon Bedrock Guardrails 提供过滤器,您可以对其进行配置,以帮助避开不良和有害的内容,并删除或屏蔽敏感信息以保护隐私。
您可以使用 Amazon Bedrock Guardrails 配置以下筛选条件:
-
内容过滤器-此过滤器可帮助您检测和过滤输入提示或模型响应中的有害文本或图像内容(不包括推理内容)。系统基于一些预定义的有害内容类别(仇恨言论、侮辱性内容、色情内容、暴力内容、不当行为和提示攻击)进行检测来完成筛选。您可以根据自己的用例为每个类别配置过滤强度。在标准层中,可以扩展对不良内容的检测,以防止代码元素中的有害内容,包括注释、变量和函数名称以及字符串文字。
-
即时攻击 — 此过滤器作为内容过滤器中的一个类别提供,可以帮助您检测和过滤即时攻击,包括越狱、提示注入和提示泄露(仅限标准级别)。此功能可帮助您检测旨在绕过内容审核、覆盖说明或生成有害内容的提示。
-
拒绝的主题 – 您可以在生成式人工智能应用程序中定义一组要防止的主题。例如,可以设计一个银行助理应用程序来帮助防止与非法投资建议相关的主题。在标准层中,内容过滤器可以扩展到代码域。
-
单词过滤器 — 您可以定义一组自定义单词或短语(完全匹配),以便在用户与生成式 AI 应用程序之间的交互中检测和屏蔽这些单词或短语。例如,您可以检测和屏蔽亵渎内容(使用 ready-to-use选项)以及特定的自定义词语,例如竞争对手姓名或其他令人反感的词语。
-
敏感信息筛选条件 – 可以帮助您检测用户输入和 FM 响应中的敏感内容,例如标准格式的个人身份信息(PII)或自定义正则表达式实体。此过滤器是基于概率匹配学习 (ML) 的解决方案,取决于上下文。它根据输入提示或模型响应中的上下文来检测敏感信息。根据您的用例,您可以屏蔽或屏蔽包含敏感信息的输入和响应。例如,您可以编校用户的个人信息,同时根据客户和代理对话记录生成摘要。
-
上下文一致性检查 – 帮助您在模型响应中检测并筛选掉幻觉,前提是幻觉是无依据的(与事实相悖或添加了新信息)或者与用户的查询无关。例如,如果模型响应偏离检索段落中的信息或未回答用户的问题,则可以在 RAG(检索增强生成)应用程序中屏蔽或标记响应。
-
自动推理检查功能 – 可以帮助您验证模型响应是否符合您定义的逻辑规则和策略。您可以使用自然语言创建策略来指定推理要求,自动推理检查将评估模型输出是否符合这些逻辑限制。例如,您可以确保客户服务聊天机器人仅推荐库存中可用的产品,或者验证财务建议是否符合监管合规规则。
注意
如果您启用了 Amazon Bedrock 模型调用日志,则上述策略中所有被阻止的内容都会以纯文本形式显示在该日志中。如果您不希望被阻止的内容以纯文本形式显示在 Amazon Bedrock 调用日志中,则可以禁用该日志。
护栏必须至少包含一个筛选条件和一条阻止提示和用户响应时显示的消息。您可以选择使用默认消息。稍后您可以按照修改护栏中的步骤添加筛选条件和迭代您的护栏机制。