本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Privacy-enhanced 合成数据集生成
<a name="synthetic-data-generation"></a>

*合成数据集*与其所基于的原始数据集具有相似的统计特性，但不包含原始数据集中存在的真实观测结果。通过使用隐私增强型合成数据集，您可以解锁新的机器学习 (ML) 模型训练用例，而这些用例是数据隐私问题以前阻止的。创建 ML 输入通道时，可以在训练 ML 模型时生成合成数据以保护敏感信息。

使用合成数据创建模板时，您必须：
+ 要求模板输出是合成的
+ 将输出架构列分类为数字列或分类列
+ 根据组织需求自定义合成数据
+ 调整隐私设置：
  + 设置隐私级别 (epsilon)
  + 配置隐私阈值

**警告**  
合成数据生成可以防止推断个人属性，无论是原始数据集中存在特定的个体，还是存在这些个体的学习属性。但是，它并不能阻止原始数据集中的文字值，包括个人身份信息 (PII) 出现在合成数据集中。  
我们建议避免输入数据集中仅与一个数据主体关联的值，因为这些值可能会重新识别数据主体。例如，如果只有一个用户居住在邮政编码中，则合成数据集中存在该邮政编码将确认该用户位于原始数据集中。诸如截断高精度值或用*其他*目录替换不常见的目录之类的技术可以用来降低这种风险。这些转换可以是用于创建 ML 输入通道的查询的一部分。

有关如何为自定义模型训练生成合成数据的更多信息，请参阅[创建 SQL 分析模板](create-sql-analysis-template.md)。

带有合成输出的分析模板只能用于创建 ML 输入通道。有关更多信息，请参阅 [在 AWS Clean Rooms ML 中创建机器学习输入通道](create-ml-input-channel.md)。