本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建护栏
Amazon Bedrock 护栏由一系列不同的筛选策略组成,您可以配置这些策略来帮助防止不良和有害的内容,并删除或掩蔽敏感信息以保护隐私。
您可以在护栏中配置以下策略:
-
内容过滤器-检测和过滤输入提示或模型响应中的有害文本或图像内容。系统基于一些预定义的有害内容类别(仇恨言论、侮辱性内容、色情内容、暴力内容、不当行为和提示攻击)进行检测来完成筛选。您还可以调整每个类别的筛选条件强度。在标准层中,内容过滤器可以扩展到与代码相关的内容。
-
提示攻击 – 可以帮助您检测并筛选提示攻击和提示注入。帮助检测试图绕过审核、覆盖指令或生成有害内容的提示。
-
拒绝的主题 – 您可以在生成式人工智能应用程序中定义一组要防止的主题。例如,可以设计一个银行助理应用程序来帮助防止与非法投资建议相关的主题。在标准层中,内容过滤器可以扩展到与代码相关的内容。
-
单词筛选条件 – 您可以配置一组自定义单词或短语(完全匹配),以便在用户与生成式人工智能应用程序的交互中检测和阻止这些单词或短语。例如,您可以检测和阻止亵渎性内容以及特定的自定义单词,例如竞争对手名称或其他冒犯性单词。
-
敏感信息筛选条件 – 可以帮助您检测用户输入和 FM 响应中的敏感内容,例如标准格式的个人身份信息(PII)或自定义正则表达式实体。根据应用场景,您可以拒绝包含敏感信息的输入,也可以在基础模型响应中对其进行编校。例如,您可以编校用户的个人信息,同时根据客户和代理对话记录生成摘要。
-
上下文一致性检查 – 帮助您在模型响应中检测并筛选掉幻觉,前提是幻觉是无依据的(与事实相悖或添加了新信息)或者与用户的查询无关。例如,如果模型响应与检索到的段落中的信息偏离或未回答用户的问题,则可以阻止或标记 RAG 应用程序(检索增强生成)中的响应。
-
自动推理检查功能 – 可以帮助您验证模型响应是否符合您定义的逻辑规则和策略。您可以使用自然语言创建指定推理要求的策略,护栏将评估模型输出是否符合这些逻辑约束。例如,您可以确保客户服务聊天机器人仅推荐库存中实际有货的产品,或者验证财务建议是否符合监管合规规则。
注意
如果您启用了 Amazon Bedrock 模型调用日志,则上述策略中所有被阻止的内容都会以纯文本形式显示在该日志中。如果您不希望被阻止的内容以纯文本形式显示在 Amazon Bedrock 调用日志中,则可以禁用该日志。
护栏必须至少包含一个筛选条件和一条阻止提示和用户响应时显示的消息。您可以选择使用默认消息。稍后您可以按照修改护栏中的步骤添加筛选条件和迭代您的护栏机制。