Amazon Bedrock 滥用检测
AWS 致力于以负责任的方式使用人工智能。为了帮助防止潜在的滥用行为,Amazon Bedrock 实施了自动化滥用检测机制,以识别可能违反 AWS 的 Acceptable Use Policy
我们的滥用检测机制是完全自动化的,因此无需人工审核或者访问用户输入或模型输出。
自动化滥用检测包括:
-
对内容进行分类 — 我们使用分类器来检测用户输入和模型输出中的有害内容(例如,煽动暴力的内容)。分类器是一种处理模型输入和输出,并指定危害类型和置信度级别的算法。我们可能会针对 Titan 和第三方模型使用信息运行这些分类器。这可以包括使用 Amazon Bedrock 的模型自定义功能进行微调的模型。分类过程是自动化的,不涉及对用户输入或模型输出进行人工审核。
-
识别模式 — 我们使用分类器指标来识别潜在的违规行为和反复出现的行为。我们可能会编译匿名的分类器指标,并与第三方模型提供商共享。Amazon Bedrock 不存储用户输入或模型输出,也不会与第三方模型提供商共享这些信息。
-
检测和拦截儿童性虐待材料(CSAM)– 您应对您(和您的终端用户)上传到 Amazon Bedrock 的内容负责,并且必须确保这些内容不包含非法图片。为了帮助阻止 CSAM 的传播,Amazon Bedrock 可能会使用自动滥用检测机制(例如哈希匹配技术或分类器)来检测明显的 CSAM。如果 Amazon Bedrock 在您的图片输入中检测到明显的 CSAM,Amazon Bedrock 将拦截该请求,并且您将收到一条自动发出的错误消息。Amazon Bedrock 还可能向美国国家失踪与受虐儿童中心(NCMEC)或相关机构提交报告。我们高度重视 CSAM 问题,并将持续改进我们的检测、拦截和报告机制。您可能需要按照相关法律采取其他措施,并对这些行为负责。
自动化滥用检测机制识别出潜在的违规行为之后,我们可能会要求您说明自己如何使用 Amazon Bedrock,以及如何遵守我们的服务条款或第三方提供商的 AUP。如果您未作出回应、不愿意或无法遵守这些条款或策略,AWS 可能会暂停您对 Amazon Bedrock 的访问。如果我们的自动化测试检测到模型的响应与第三方模型提供商的许可证条款和策略不一致,您也可能需要支付失败的微调作业的费用。
如有其他疑问,请联系 AWS Support。有关更多信息,请参阅 Amazon Bedrock 常见问题