使用内容筛选条件阻止有害单词和对话 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用内容筛选条件阻止有害单词和对话

Amazon Bedrock Guardrails 支持内容过滤器,以帮助检测和过滤有害的用户输入和模型生成的自然语言输出,以及标准层中与代码相关的内容。支持以下类别的内容筛选条件:

讨厌

  • 描述那些基于身份(例如种族、民族、性别、宗教、性取向、能力和国籍)对个人或群体进行歧视、批评、侮辱、谴责或非人性化语言攻击的输入提示和模型响应。

侮辱

  • 描述包括贬低、羞辱、嘲笑、侮辱或贬低性语言的输入提示和模型响应。这种语言也被标记为欺凌。

色情

  • 描述那些通过直接或间接提及身体部位、身体特征或性别来表示性兴趣、性行为或性唤起的输入提示和模型响应。

暴力

  • 描述包括以下内容的输入提示和模型响应:美化对个人、群体或事物造成身体痛苦、损伤或伤害,或者威胁对个人、群体或事物造成身体痛苦、损伤或伤害。

不当行为

  • 描述那些寻求或提供有关参与犯罪活动、伤害、欺诈或利用个人、群体或机构的信息的输入提示和模型响应。

为护栏配置内容筛选条件

您可以使用或 AWS 管理控制台 Amazon Bedrock API 为护栏配置内容过滤器。

Console
  1. 使用有权使用 Amazon Bedrock 控制台的 IAM 身份登录。AWS 管理控制台然后,在 https://console.aws.amazon.com/bedrock 上打开 Amazon Bedrock 控制台。

  2. 从左侧导航栏中,选择护栏,然后选择创建护栏

  3. 对于提供护栏详细信息页面,执行以下操作:

    1. 护栏详细信息部分,提供护栏的名称和(可选的)描述

    2. 对于针对阻止的提示显示的消息,输入一条将在应用护栏时显示的消息。选中对回应应用相同的阻止消息复选框,以便在对响应应用您的护栏时使用相同的消息。

    3. (可选)要为护栏启用跨区域推理,请展开跨区域推理,然后选择为护栏启用跨区域推理。选择护栏配置文件,该配置文件定义了可以将护栏推理请求路由到的目标 AWS 区域。

    4. (可选)默认情况下,您的护栏使用加密。AWS 托管式密钥要使用您自己的客户自主管理型 KMS 密钥,请展开 KMS 密钥选择,然后选中自定义加密设置(高级)复选框。

      您可以选择现有AWS KMS密钥或选择 “创建AWS KMS密钥” 来创建新密钥。

    5. (可选)要向护栏添加标签,请展开标签。然后为您定义的每个标签选择添加新标签

      有关更多信息,请参阅 标记 Amazon Bedrock 资源

    6. 选择下一步

  4. 配置内容筛选条件页面上,通过执行以下操作,来设置针对与使用内容筛选条件阻止有害单词和对话中所定义类别相关的内容的筛选强度:

    1. 选择配置有害类别筛选条件。选择文本和/或图像,筛选向模型输入的提示或响应中的文本或图像内容。为要应用于每个类别的筛选级别选择“无”、“低”、“中”或“高”。您可以选择为提示或响应设置不同的筛选级别。您可以为有害类别中的提示攻击选择筛选条件。配置您希望每个筛选条件对用户向模型提供的提示使用的严格程度。

    2. 选择阻止检测(不执行任何操作),确定护栏在检测到提示和响应中的有害内容时所执行的操作。

      有关更多信息,请参阅 处理 Amazon Bedrock 护栏检测到的有害内容的选项

    3. 设置阈值中,为要应用于每个类别的筛选级别选择“无”、“低”、“中”或“高”

      您可以选择为提示和响应设置不同的筛选级别。

    4. 对于内容筛选条件层级,请选择您希望护栏用来筛选基于文本的提示和响应的保护层级。有关更多信息,请参阅 护栏策略的保护层级

    5. 选择下一步可根据需要配置其他策略,或者选择跳至“审查”并创建以完成护栏的创建。

  5. 查看护栏的设置。

    1. 在要对其进行更改的任何部分,选择编辑

    2. 配置完策略后,选择创建以创建护栏。

API

通过发送请求为您的护栏配置内容过滤器。CreateGuardrail请求的格式如下:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • namedescription 字段分别为护栏指定名称和描述。

  • blockedInputMessagingblockedOutputsMessaging 字段中指定护栏成功阻止提示或模型响应时显示的消息。

  • contentPolicyConfig 对象中提供的有害类别指定筛选条件强度。

    filtersConfig 列表中的每个项目都属于一个有害类别。有关更多信息,请参阅 使用内容筛选条件阻止有害单词和对话。有关内容过滤器中字段的更多信息,请参阅ContentFilter

    • (可选)对于 inputActionoutputAction,指定护栏在提示和响应中检测到有害内容时执行的操作。

    • (可选)使用 inputAction(在提示中)和 outputAction(在响应中)指定检测到有害内容时要执行的操作。选择 BLOCK 以阻止内容并替换为被阻止时显示的消息,或选择 NONE,不执行任何操作而只返回检测信息。有关更多信息,请参阅 处理 Amazon Bedrock 护栏检测到的有害内容的选项

    • inputStrength 字段中的提示和 outputStrength 字段中的模型响应指定筛选强度。

    • type 字段中指定类别。

  • (可选)在 contentPolicyConfig 对象内的 tierConfig 对象中,为护栏指定保护层级。选项包括 STANDARDCLASSIC 层级。

    有关更多信息,请参阅 护栏策略的保护层级

  • (可选)要启用跨区域推理,请在 crossRegionConfig 对象中指定护栏配置文件。使用 STANDARD 层级时必须这样做。

响应的格式如下:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }