屏蔽拒绝的主题以帮助删除有害内容 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

屏蔽拒绝的主题以帮助删除有害内容

您可以在护栏中指定一组拒绝的主题,这些主题在生成式 AI 应用程序的上下文中是不可取的。例如,银行可能希望其人工智能助手避免与投资建议或加密货币相关的对话。

根据护栏中每个被拒绝的话题对模型提示和自然语言回复进行评估。如果检测到其中一个被拒绝的主题,您的护栏会返回一条被屏蔽的消息。

使用以下参数创建被拒绝的主题,您的护栏使用这些参数来检测提示或响应是否属于该主题:

  • 名称-主题的名称。名称应为名词或短语。不要在名称中描述主题。例如:

    • Investment Advice

  • 定义-最多 200 个字符,用于总结主题内容。定义应描述主题及其子主题的内容。

    以下是您可以提供的主题定义示例:

    Investment advice is inquiries, guidance, or recommendations about the management or allocation of funds or assets with the goal of generating returns or achieving specific financial objectives.

  • 示例短语(可选)— 最多包含五个与该主题相关的示例短语的列表。每个短语最多 100 个字符。示例是指能够展示应被筛除的内容的提示或续写。例如:

    • Is investing in the stocks better than bonds?

    • Should I invest in gold?

创建被拒绝的话题的最佳实践

  • 以简洁明确的方式定义主题。清晰明确的主题定义可以提高主题检测的准确性。例如,用于检测与加密货币相关的查询或语句的主题可以定义为 Question or information associated with investing, selling, transacting, or procuring cryptocurrencies

  • 不要在主题定义中包含示例或说明。例如,Block all contents associated to cryptocurrency 是指令,而不是主题定义。这类指令不得用作主题定义的一部分。

  • 不要定义负面话题或例外。例如,All contents except medical informationContents not containing medical information 是否定主题定义,不得使用。

  • 不要使用被拒绝的话题来捕获实体或单词。例如,Statement or questions containing the name of a person "X"Statements with a competitor name Y。主题定义代表一个主题,防护机制会根据上下文评估输入。主题筛选不应用于捕获单个单词或实体类型。有关这些用例使用单词筛选条件从对话中删除特定的单词和短语的更多信息使用敏感信息筛选条件从对话中删除 PII,请参阅或。

将拒绝的话题添加到您的护栏中

您可以使用或 AWS Management Console Amazon Bedrock API 将最多 30 个被拒绝的话题添加到您的防护栏中。

Console
  1. 使用有权使用 Amazon Bedrock 控制台的 IAM 身份登录。 AWS Management Console 然后,打开 Amazon Bedrock 控制台,网址为https://console.aws.amazon.com/bedrock/

  2. 从左侧导航窗格中选择 Guardrails,然后选择创建护栏

  3. 对于提供护栏详细信息页面,请执行以下操作:

    1. 防护机制详细信息部分,提供防护机制的名称和(可选的)描述

    2. 对于已屏蔽提示的消息,请输入在安装护栏时显示的消息。选中 “对回复应用相同的屏蔽消息” 复选框,以便在对响应应用防护栏时使用相同的消息。

    3. (可选)要为护栏启用跨区域推理,请展开跨区域推理,然后为您的护栏选择启用跨区域推理。选择一个护栏配置文件,该配置文件定义了 AWS 区域 可以路由护栏推理请求的目的地。

    4. (可选)默认情况下,您的护栏使用加密。 AWS 托管式密钥要使用您自己的客户管理的 KMS 密钥,请展开 KMS 密钥选择并选中 “自定义加密设置(高级)” 复选框。

      您可以选择现有 AWS KMS 密钥或选择创建 AWS KMS 密钥来创建新密钥。

    5. (可选)要向护栏添加标签,请展开标签,然后为您定义的每个标签选择添加新标签。

      有关更多信息,请参阅 标记 Amazon Bedrock 资源

    6. 选择下一步

  4. 进入 “添加被拒绝的话题” 页面后,选择 “添加被拒绝的话题”,然后执行以下操作:

    1. 输入主题的名称

    2. “定义” 中,定义主题。有关如何定义拒绝的主题的指南,请参阅屏蔽拒绝的主题以帮助删除有害内容

    3. (可选)在 “输入” 中,指定是否为模型提示启用护栏评估。如果启用,请选择你想要的护栏动作。默认情况下,屏蔽处于启用状态。有关更多信息,请参阅 处理 Amazon Bedrock Guardrails 检测到的有害内容的选项

    4. (可选)在 “输出” 中,指定是否为模型响应启用护栏评估。如果启用,请选择您希望护栏对响应采取哪种操作。默认情况下,屏蔽处于启用状态。有关更多信息,请参阅 处理 Amazon Bedrock Guardrails 检测到的有害内容的选项

    5. (可选)展开 “添加示例短语”,然后输入代表与此主题相关的提示或回复的短语。您最多可以输入五个短语。对于您包含的每个短语,请选择 “添加短语”。

    6. 对于 “拒绝的话题” 级别,请选择您希望您的护栏用于屏蔽提示和回复中的话题的保护层。有关更多信息,请参阅 护栏政策的保障等级

    7. 配置完拒绝的主题后,选择确认

    8. 重复前面的步骤以创建其他被拒绝的主题。

    9. 选择 “下一步” 根据需要配置其他策略,或者选择 “跳至查看并创建” 以完成护栏的创建。

  5. 查看护栏的设置。

    1. 在要对其进行更改的任何部分,选择编辑

    2. 配置完策略后,选择 “创建” 以创建护栏。

API

通过发送请求将拒绝的话题添加到您的护栏中。CreateGuardrail请求格式如下所示:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "topicPolicyConfig": { "topicsConfig": [ { "definition": "string", "examples": [ "string" ], "inputAction": "BLOCK | NONE", "inputEnabled": true, "name": "string", "outputAction": "BLOCK | NONE", "outputEnabled": true, "type": "DENY" }, "tierConfig": { "tierName": "CLASSIC | STANDARD" }, ] }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • blockedInputMessagingblockedOutputsMessaging 字段中指定防护机制成功阻止提示或模型响应时显示的消息。

  • 指定防护机制要在 topicPolicyConfig 对象中拒绝的主题。topicsConfig 列表中的每个项目都与一个主题相关。

    • definition为应拒绝的主题指定name和。

    • type 字段中指定 DENY

    • 指定在使用提示inputAction或使用响应中检测到主题时要采取的操作outputAction。选择屏蔽内容并替换BLOCK为已屏蔽的消息,或者选择不NONE采取任何措施只返回检测信息。有关更多信息,请参阅 处理 Amazon Bedrock Guardrails 检测到的有害内容的选项

    • 设置inputEnabledoutputEnabled以控制是否为模型提示和响应启用护栏评估。

    • (可选)在examples列表中,最多指定五个示例短语,这些短语代表与该主题相关的提示或响应。

  • (可选)为对象中的护栏指定防护等级。tierConfig选项包括STANDARDCLASSIC等级。

    有关更多信息,请参阅 护栏政策的保障等级

  • (可选)要启用跨区域推理,请在对象中指定护栏配置文件。crossRegionConfig使用该STANDARD等级时必须这样做。

  • namedescription 字段分别为防护机制指定名称和描述。

响应格式如下所示:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }