处理 Amazon Bedrock Guardrails 检测到的有害内容的选项 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理 Amazon Bedrock Guardrails 检测到的有害内容的选项

您可以配置 Amazon Bedrock 护栏在运行时在提示 (inputAction) 和响应 () 中检测到有害内容时会采取的操作。outputAction

当模型输入和响应中检测到有害内容时,Guardrails 过滤策略支持以下操作:

  • 屏蔽-屏蔽内容并将其替换为已屏蔽的消息。

  • 掩码 — 匿名化内容并将其替换为标识符标记(例如{NAME}{EMAIL})。

    此选项仅适用于敏感信息过滤器。有关更多信息,请参阅 使用敏感信息筛选条件从对话中删除 PII

  • 检测-不采取任何行动,只返回护栏在跟踪响应中检测到的内容。使用此选项(称为检测模式)来帮助评估您的护栏是否按预期的方式工作。

使用检测模式进行护栏评估

Amazon Bedrock Guardrails 策略支持检测模式,该模式允许您在不采取任何操作(例如屏蔽内容)的情况下评估护栏的性能。

使用检测模式具有以下好处:

  • 在不影响客户体验的情况下,测试护栏政策的不同组合和优势。

  • 分析任何误报或负面因素,并相应地调整您的策略配置。

  • 只有在确认护栏按预期工作后,才能部署护栏。

示例:使用检测模式评估内容过滤器

例如,假设您配置的策略的内容过滤器强度为HIGH。基于此设置,即使您的护栏对其评估结果恢复了信心,它也会屏蔽内容。LOW

要了解这种行为(并确保您的应用程序不会屏蔽您意想不到的内容),您可以将策略操作配置为NONE。跟踪响应可能如下所示:

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

这使您可以预览护栏评估并查看已检测到(true),但由于您已将其配置为,因此未采取任何操作。VIOLENCE NONE

如果您不想屏蔽该文本,则可以将过滤器强度调整为MEDIUMLOW并重做评估。获得所需结果后,您可以将政策行动更新为BLOCKANONYMIZE