本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
处理 Amazon Bedrock Guardrails 检测到的有害内容的选项
您可以配置 Amazon Bedrock 护栏在运行时在提示 (inputAction
) 和响应 () 中检测到有害内容时会采取的操作。outputAction
当模型输入和响应中检测到有害内容时,Guardrails 过滤策略支持以下操作:
-
屏蔽-屏蔽内容并将其替换为已屏蔽的消息。
-
掩码 — 匿名化内容并将其替换为标识符标记(例如
{NAME}
或{EMAIL}
)。此选项仅适用于敏感信息过滤器。有关更多信息,请参阅 使用敏感信息筛选条件从对话中删除 PII。
-
检测-不采取任何行动,只返回护栏在跟踪响应中检测到的内容。使用此选项(称为检测模式)来帮助评估您的护栏是否按预期的方式工作。
使用检测模式进行护栏评估
Amazon Bedrock Guardrails 策略支持检测模式,该模式允许您在不采取任何操作(例如屏蔽内容)的情况下评估护栏的性能。
使用检测模式具有以下好处:
-
在不影响客户体验的情况下,测试护栏政策的不同组合和优势。
-
分析任何误报或负面因素,并相应地调整您的策略配置。
-
只有在确认护栏按预期工作后,才能部署护栏。
示例:使用检测模式评估内容过滤器
例如,假设您配置的策略的内容过滤器强度为HIGH
。基于此设置,即使您的护栏对其评估结果恢复了信心,它也会屏蔽内容。LOW
要了解这种行为(并确保您的应用程序不会屏蔽您意想不到的内容),您可以将策略操作配置为NONE
。跟踪响应可能如下所示:
{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }
这使您可以预览护栏评估并查看已检测到(true
),但由于您已将其配置为,因此未采取任何操作。VIOLENCE
NONE
如果您不想屏蔽该文本,则可以将过滤器强度调整为MEDIUM
或LOW
并重做评估。获得所需结果后,您可以将政策行动更新为BLOCK
或ANONYMIZE
。