合成数据生成的注意事项 - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

合成数据生成的注意事项

借助 AWS Clean Rooms ML,协作成员可以创建一个合成数据集,该数据集可以不可逆转地将原始数据集的主体从其集体数据集中去识别出来,从而训练自定义机器学习模型。创建协作时,您必须配置付款信息,以指定谁为合成数据生成付费。以下是生成合成数据集和训练自定义机器学习模型的高级步骤:

  1. 协作成员创建的分析模板包括:

    • 需要使用 SQL 来定义要合成的数据集。

    • 与隐私相关的配置,用于确保合成数据符合数据提供者的合规性要求。

  2. 一旦所有数据提供者都批准了分析模板,协作查询运行器就会使用该模板创建一个机器学习 (ML) 输入通道。

  3. Clean Rooms ML 生成合成数据集并验证其是否符合分析模板中指定的隐私阈值。

  4. 如果满足所有阈值,则使用合成数据集填充 ML 输入通道。

  5. 然后,客户可以使用此机器学习输入渠道来训练与协作相关的自定义 ML 模型。

重要注意事项:

  • 在 Clean Rooms ML 中生成的合成数据不会删除、编辑、混淆或消毒任何个人值,包括在原始数据集中找到的个人身份信息 (PII)。合成数据集是由原始数据集中的采样值生成的,但不是整个记录生成的。

  • 如果原始数据集包含相似的行,则合成数据可能包含看起来与原始数据集中的行完全相同的行。

数据集准备:

  • 避免使用类别分布严重不平衡的列。这对于预测值或 “Y” 列尤其重要。极端的不平衡会降低合成数据集的整体隐私。

  • Clean Rooms ML 不支持根据时间序列数据生成合成数据,在这些数据中,保持顺序记录之间的相关性非常重要。

  • Clean Rooms ML 不支持从文本或非结构化数据生成合成数据。

  • 支持以下数据类型:

    数据类型名称
    BIGINT
    BOOLEAN
    CHAR
    DATE
    DECIMAL
    FLOAT
    INTEGER
    LONG
    REAL
    SHORT
    SMALLINT
    TIME
    TIMESTAMP_LTZ
    TIMESTAMP_NTZ
    TINYINT
    VARCHAR

限制:

  • 对于合成数据生成,预测列的最大数目为 1。

  • 如果目标列是分类列,则原始数据集中的最大类别数为 100。

  • 在原始数据集中,行数必须介于 1,500 到 250 万之间,最大列数为 1.000。对于目标列中的非空值,最小行数为 1,000。

隐私指标:

  • Clean Rooms ML 提供了一个隐私分数,用于衡量生成的合成数据对成员资格推断攻击的保护程度(MIAs)。该服务保留了合成过程中原始数据的5%来计算该分数。

  • 接近 50% 的分数被认为是不错的;分数越高表示防御能力越差 MIAs。分数明显低于 50% 的情况很少见,这可能是由于合成数据中未显示原始数据的模式。

下游自定义模型:

  • 在 Clean Rooms ML 中生成的合成数据最适合训练二元分类模型和最多包含五个类别的多类分类模型。

  • 根据均方根误差 (RMSE) 的测量,使用在 Clean Rooms ML 中生成的合成数据训练回归模型可能会导致模型精度降低。