View a markdown version of this page

合成数据生成的注意事项 - AWS Clean Rooms

合成数据生成的注意事项

借助 AWS Clean Rooms ML，协作成员可以创建一个合成数据集，该数据集可以不可逆转地将原始数据集的主体从其集体数据集中去识别出来，从而训练自定义机器学习模型。创建协作时，您必须配置付款信息，以指定谁为合成数据生成付费。以下是生成合成数据集和训练自定义机器学习模型的高级步骤：

协作成员创建的分析模板包括：
- 需要使用 SQL 来定义要合成的数据集。
- Privacy-related 用于确保合成数据满足数据提供者的合规性要求的配置。
一旦所有数据提供者都批准了分析模板，协作查询运行器就会使用该模板创建一个机器学习 (ML) 输入通道。
Clean Rooms ML 生成合成数据集并验证其是否符合分析模板中指定的隐私阈值。
如果满足所有阈值，则使用合成数据集填充 ML 输入通道。
然后，客户可以使用此机器学习输入渠道来训练与协作相关的自定义 ML 模型。

重要注意事项：

在 Clean Rooms ML 中生成的合成数据不会删除、编辑、混淆或消毒任何个人值，包括在原始数据集中找到的个人身份信息 (PII)。合成数据集是由原始数据集中的采样值生成的，但不是整个记录生成的。
如果原始数据集包含相似的行，则合成数据可能包含看起来与原始数据集中的行完全相同的行。

数据集准备：

避免使用类别分布严重不平衡的列。这对于预测值或 “Y” 列尤其重要。极端的不平衡会降低合成数据集的整体隐私。
Clean Rooms ML 不支持根据时间序列数据生成合成数据，在这些数据中，保持顺序记录之间的相关性非常重要。
Clean Rooms ML 不支持从文本或非结构化数据生成合成数据。

支持以下数据类型：

数据类型名称
BIGINT
BOOLEAN
CHAR
DATE
DECIMAL
FLOAT
INTEGER
LONG
REAL
SHORT
SMALLINT
TIME
TIMESTAMP_LTZ
TIMESTAMP_NTZ
TINYINT
VARCHAR

限制：

对于合成数据生成，预测列的最大数目为 1。
如果目标列是分类列，则原始数据集中的最大类别数为 100。
在原始数据集中，行数必须介于 1,500 到 250 万之间，最大列数为 1.000。对于目标列中的非空值，最小行数为 1,000。

隐私指标：

Clean Rooms ML 提供了一个隐私分数，用于衡量生成的合成数据对成员资格推断攻击 (MIA) 的保护程度。该服务保留了合成过程中原始数据的5％来计算该分数。
接近 50% 的分数被认为是不错的；分数越高表示对 MIA 的保护越少。分数明显低于 50% 的情况很少见，这可能是由于合成数据中未显示原始数据的模式。

下游自定义模型：

在 Clean Rooms ML 中生成的合成数据最适合训练二元分类模型和最多包含五个类别的多类分类模型。
根据均方根误差 (RMSE) 的测量，使用在 Clean Rooms ML 中生成的合成数据训练回归模型可能会导致模型精度降低。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

Privacy-enhanced 合成数据集生成

创建和加入协作