本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
隐私增强型合成数据集生成
合成数据集与其所基于的原始数据集具有相似的统计特性,但不包含原始数据集中存在的真实观测结果。通过使用隐私增强型合成数据集,您可以解锁新的机器学习 (ML) 模型训练用例,而这些用例是数据隐私问题以前阻止的。创建 ML 输入通道时,可以在训练 ML 模型时生成合成数据以保护敏感信息。
使用合成数据创建模板时,您必须:
-
要求模板输出是合成的
-
将输出架构列分类为数字列或分类列
-
根据组织需求自定义合成数据
-
调整隐私设置:
-
设置隐私级别 (epsilon)
-
配置隐私阈值
-
警告
合成数据生成可以防止推断出个人属性,无论特定个体存在于原始数据集中,还是存在这些个体的学习属性。但是,它并不能阻止原始数据集中的文字值,包括个人身份信息 (PII) 出现在合成数据集中。
我们建议避免输入数据集中仅与一个数据主体关联的值,因为这些值可能会重新识别数据主体。例如,如果只有一个用户居住在邮政编码中,则合成数据集中存在该邮政编码将确认该用户位于原始数据集中。诸如截断高精度值或用其他目录替换不常见的目录之类的技术可以用来降低这种风险。这些转换可以是用于创建 ML 输入通道的查询的一部分。
有关如何为自定义模型训练生成合成数据的更多信息,请参阅创建 SQL 分析模板。
带有合成输出的分析模板只能用于创建 ML 输入通道。有关更多信息,请参阅 在 AWS Clean Rooms ML 中创建机器学习输入通道。