使用内容筛选条件阻止有害单词和对话 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用内容筛选条件阻止有害单词和对话

Amazon Bedrock Guardrails 支持内容过滤器,以帮助检测和过滤有害的用户输入和模型生成的自然语言输出。支持以下类别的内容过滤器:

讨厌

  • 描述基于身份(例如种族、民族、性别、宗教、性取向、能力和国籍)对个人或群体进行歧视、批评、侮辱、谴责或非人化的输入提示和模型回应。

侮辱

  • 描述输入提示和模型响应,包括贬低、羞辱、嘲笑、侮辱或贬低语言。这种语言也被标记为欺凌。

  • 通过直接或间接提及身体部位、身体特征或性别,描述表明性兴趣、活动或觉醒的输入提示和模型响应。

暴力

  • 描述输入提示和模型响应,包括美化或威胁对个人、群体或事物造成身体痛苦、伤害或伤害。

不当行为

  • 描述搜索或提供有关参与犯罪活动、伤害、欺诈或利用个人、团体或机构的信息的输入提示和模型响应。

为护栏配置内容过滤器

您可以使用或 AWS Management Console Amazon Bedrock API 为护栏配置内容过滤器。

Console
  1. AWS Management Console 使用具有 Amazon Bedrock 权限的 IAM 角色登录,然后通过以下网址打开 Amazon Bedrock 控制台。https://console.aws.amazon.com/bedrock/

  2. 从左侧导航窗格中选择 Guardrails,然后选择创建护栏

  3. 对于提供护栏详细信息页面,请执行以下操作:

    1. 防护机制详细信息部分,提供防护机制的名称和(可选的)描述

    2. 对于已屏蔽提示的消息,请输入在安装护栏时显示的消息。选中 “对回复应用相同的屏蔽消息” 复选框,以便在对响应应用防护栏时使用相同的消息。

    3. (可选)要为护栏启用跨区域推理,请展开跨区域推理,然后为您的护栏选择启用跨区域推理。选择一个护栏配置文件,该配置文件定义了 AWS 区域 可以路由护栏推理请求的目的地。

    4. (可选)默认情况下,您的护栏使用加密。 AWS 托管式密钥要使用您自己的客户管理的 KMS 密钥,请展开 KMS 密钥选择并选中 “自定义加密设置(高级)” 复选框。

      您可以选择现有 AWS KMS 密钥或选择 “创建 AWS KMS 密钥” 来创建新密钥。

    5. (可选)要向护栏添加标签,请展开标签。然后为您定义的每个标签选择 “添加新标签”。

      有关更多信息,请参阅 标记 Amazon Bedrock 资源

    6. 选择下一步

  4. 配置内容过滤器页面上,使用内容筛选条件阻止有害单词和对话通过执行以下操作来设置筛选出与中定义的类别相关的内容的强度:

    1. 选择 “配置有害类别过滤器”。选择 “文本” 和/或 “图像”,筛选模型提示或响应中的文本或图像内容。为要应用于每个类别的过滤级别选择 “无”、“低”、“中” 或 “高”。您可以为提示或响应选择不同的过滤级别。您可以为有害类别中的提示攻击选择筛选条件。配置您希望每个筛选条件对用户向模型提供的提示使用的严格程度。

    2. 选择 “屏蔽” 或 “检测”(不执行任何操作),以确定您的护栏在检测到提示和响应中有害内容时会采取什么措施。

      有关更多信息,请参阅 处理 Amazon Bedrock Guardrails 检测到的有害内容的选项

    3. 在 “设置阈值” 中,选择 “无”、“低”、“中” 或 “高” 作为要应用于每个类别的过滤级别。

      您可以选择为提示和响应设置不同的过滤级别。

    4. 对于内容过滤器级别,请选择您希望护栏用于过滤基于文本的提示和响应的保护层。有关更多信息,请参阅 护栏政策的保障等级

    5. 选择 “下一步” 根据需要配置其他策略,或者选择 “跳至查看并创建” 以完成护栏的创建。

  5. 查看护栏的设置。

    1. 在要对其进行更改的任何部分,选择编辑

    2. 配置完策略后,选择 “创建” 以创建护栏。

API

通过发送请求为您的护栏配置内容过滤器。CreateGuardrail请求的格式如下:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • namedescription 字段分别为防护机制指定名称和描述。

  • blockedInputMessagingblockedOutputsMessaging 字段中指定防护机制成功阻止提示或模型响应时显示的消息。

  • contentPolicyConfig对象可用的有害类别指定过滤器强度。

    filtersConfig 列表中的每个项目都属于一个有害类别。有关更多信息,请参阅 使用内容筛选条件阻止有害单词和对话。有关内容过滤器中字段的更多信息,请参阅ContentFilter

    • (可选)对于inputActionoutputAction,请指定护栏在提示和响应中检测到有害内容时采取的操作。

    • (可选)指定在使用inputAction或使用响应的提示中检测到有害内容时要采取的操作outputAction。选择屏蔽内容并替换BLOCK为已屏蔽的消息,或者选择不NONE采取任何措施只返回检测信息。有关更多信息,请参阅 处理 Amazon Bedrock Guardrails 检测到的有害内容的选项

    • 为字段中的提示和inputStrength字段中的模型响应指定过滤器的强度。outputStrength

    • type 字段中指定类别。

  • (可选)在tierConfig物体内的物体中为护栏指定防护等级。contentPolicyConfig选项包括STANDARDCLASSIC等级。

    有关更多信息,请参阅 护栏政策的保障等级

  • (可选)要启用跨区域推理,请在对象中指定护栏配置文件。crossRegionConfig使用该STANDARD等级时必须这样做。

响应格式如下所示:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }