处理 Amazon Bedrock 护栏检测到的有害内容的选项

您可以配置当 Amazon Bedrock 护栏在提示（inputAction）响应和（outputAction）中检测到有害内容时，护栏在运行时会执行的操作。

在模型输入和响应中检测到有害内容时，护栏筛选策略支持以下操作：

阻止 – 阻止内容并将其替换为被阻止时显示的消息。
屏蔽 – 对内容进行匿名处理，并将其替换为标识符标签（如 {NAME} 或 {EMAIL}）。

此选项仅可用于敏感信息筛选条件。有关更多信息，请参阅使用敏感信息筛选条件从对话中删除 PII。
检测 – 不执行任何操作，只返回护栏在跟踪响应中检测到的内容。使用此选项（称为检测模式）可帮助评估您的护栏是否按预期工作。

使用检测模式进行护栏评估

Amazon Bedrock 护栏策略支持检测模式，该模式可让您在不执行任何操作（如阻止内容）的情况下评估护栏的性能。

使用检测模式有以下益处：

在不影响客户体验的情况下，测试护栏策略的不同组合和强度。
分析所有假阳性或假阴性，并相应地调整策略配置。
仅在确认护栏按预期运行后才部署护栏。

示例：使用检测模式评估内容筛选条件

例如，假设您配置了一个内容筛选条件强度为 HIGH 的策略。基于此设置，即使护栏在评估结果中返回了置信度 LOW，它也会阻止内容。

要理解这种行为（并确保您的应用程序不会阻止非预期内容），您可以将策略操作配置为 NONE。跟踪响应可能如下所示：


{
    "assessments": [{
        "contentPolicy": {
            "filters": [{
                "action": "NONE",
                "confidence": "LOW",
                "detected": true,
                "filterStrength": "HIGH",
                "type": "VIOLENCE"
            }]
        }
    }]
}

这使您可以预览护栏评估结果并看到检测到了 VIOLENCE（true），但由于您将操作配置为 NONE，因此未执行任何操作。

如果您不想阻止该文本，则可以将筛选强度调整为 MEDIUM 或 LOW 并重做评估。获得所需结果后，您可以将策略操作更新为 BLOCK 或 ANONYMIZE。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

添加上下文一致性检查

添加 Amazon Bedrock 护栏中的自动推理检查功能