处理 Amazon Bedrock 护栏检测到的有害内容的选项 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理 Amazon Bedrock 护栏检测到的有害内容的选项

您可以配置当 Amazon Bedrock 护栏在提示(inputAction)响应和(outputAction)中检测到有害内容时,护栏在运行时会执行的操作。

在模型输入和响应中检测到有害内容时,护栏筛选策略支持以下操作:

  • 阻止 – 阻止内容并将其替换为被阻止时显示的消息。

  • 屏蔽 – 对内容进行匿名处理,并将其替换为标识符标签(如 {NAME}{EMAIL})。

    此选项仅可用于敏感信息筛选条件。有关更多信息,请参阅 使用敏感信息筛选条件从对话中删除 PII

  • 检测 – 不执行任何操作,只返回护栏在跟踪响应中检测到的内容。使用此选项(称为检测模式)可帮助评估您的护栏是否按预期工作。

使用检测模式进行护栏评估

Amazon Bedrock 护栏策略支持检测模式,该模式可让您在不执行任何操作(如阻止内容)的情况下评估护栏的性能。

使用检测模式有以下益处:

  • 在不影响客户体验的情况下,测试护栏策略的不同组合和强度。

  • 分析所有假阳性或假阴性,并相应地调整策略配置。

  • 仅在确认护栏按预期运行后才部署护栏。

示例:使用检测模式评估内容筛选条件

例如,假设您配置了一个内容筛选条件强度为 HIGH 的策略。基于此设置,即使护栏在评估结果中返回了置信度 LOW,它也会阻止内容。

要理解这种行为(并确保您的应用程序不会阻止非预期内容),您可以将策略操作配置为 NONE。跟踪响应可能如下所示:

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

这使您可以预览护栏评估结果并看到检测到了 VIOLENCEtrue),但由于您将操作配置为 NONE,因此未执行任何操作。

如果您不想阻止该文本,则可以将筛选强度调整为 MEDIUMLOW 并重做评估。获得所需结果后,您可以将策略操作更新为 BLOCKANONYMIZE