本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建您的护栏
Amazon Bedrock 防护机制由一系列不同的筛选策略组成,您可以配置这些策略来帮助防止不良和有害的内容,并删除或掩蔽敏感信息以保护隐私。
您可以在防护机制中配置以下策略:
内容过滤器 — 您可以配置阈值,以帮助屏蔽文本的输入提示或对包含有害内容的图像进行建模,例如仇恨、侮辱、性、暴力、不当行为(包括犯罪活动)和即时攻击(即时注入和越狱)。例如,电子商务网站可以设计其在线助手,以避免使用不恰当的语言 and/or 图片,例如仇恨或暴力。
-
提示攻击 — 可以帮助您检测和过滤提示攻击和提示性攻击。帮助检测旨在绕过审核、忽略说明或生成有害内容的提示。
拒绝的主题 – 您可以在生成式人工智能应用程序中定义一组要防止的主题。例如,可以设计一个银行助理应用程序来帮助防止与非法投资建议相关的主题。
单词过滤器 — 您可以配置一组自定义单词或短语(完全匹配),以便在用户与生成式 AI 应用程序之间的交互中检测和屏蔽这些单词或短语。例如,您可以检测和阻止亵渎性内容以及特定的自定义单词,例如竞争对手名称或其他冒犯性单词。
敏感信息过滤器 — 可以帮助您检测敏感内容,例如标准格式的个人身份信息 (PII) 或用户输入和 FM 响应中的自定义正则表达式实体。根据应用场景,您可以拒绝包含敏感信息的输入,也可以在基础模型响应中对其进行编校。例如,您可以编校用户的个人信息,同时根据客户和代理对话记录生成摘要。
上下文接地检查 – 如果模型响应中的幻觉未基于源信息(与事实相悖或添加了新信息),或者与用户的查询无关,则可以帮助您在模型响应中将其检测出并筛选掉。例如,如果模型响应与检索到的段落中的信息偏离或未回答用户的问题,则可以阻止或标记 RAG 应用程序(检索增强生成)中的响应。
注意
如果您启用了上述政策,则所有被屏蔽的内容都将以纯文本形式显示在 Amazon Bedrock 模型调用日志中。如果您不希望被屏蔽的内容在日志中显示为纯文本,则可以禁用 Amazon Bedrock 调用日志。
防护机制必须至少包含一个筛选条件和一条阻止提示和用户响应时显示的消息。您可以选择使用默认消息。您可以按照中的步骤添加过滤器并稍后在护栏上进行迭代。修改您的护栏