合成資料產生的考量事項 - AWS Clean Rooms

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

合成資料產生的考量事項

使用 AWS Clean Rooms ML,協同合作成員可以建立合成資料集,以不可逆的方式從其集合資料集取消識別原始資料集的主體,以訓練自訂機器學習模型。建立協同合作時,您必須設定付款資訊,以指定誰支付合成資料產生的費用。以下是產生合成資料集和訓練自訂機器學習模型的高階步驟:

  1. 協同合作成員會建立分析範本,其中包含:

    • 定義要合成的資料集所需的 SQL。

    • 隱私權相關組態,用於確保合成資料符合資料提供者的合規要求。

  2. 所有資料提供者核准分析範本後,協同合作查詢執行器會使用範本建立機器學習 (ML) 輸入通道。

  3. Clean Rooms ML 會產生合成資料集,並驗證是否符合分析範本中指定的隱私權閾值。

  4. 如果滿足所有閾值,ML 輸入通道會填入合成資料集。

  5. 然後,客戶可以使用此 ML 輸入通道來訓練與協同合作相關聯的自訂 ML 模型。

重要考量:

  • 在 Clean Rooms ML 中產生的合成資料不會移除、修訂、混淆或淨化任何個別值,包括在原始資料集中找到的個人身分識別資訊 (PII)。合成資料集是由原始資料集的取樣值產生,而不是整個記錄。

  • 如果原始資料集包含類似的資料列,則合成資料可能包含看起來與原始資料集中的資料列相同的資料列。

資料集準備:

  • 避免類別分佈明顯不平衡的資料欄。這對預測值或「Y」資料欄特別重要。極端不平衡會降低合成資料集的整體隱私權。

  • Clean Rooms ML 不支援從時間序列資料產生合成資料,其中維護序列記錄之間的關聯至關重要。

  • Clean Rooms ML 不支援從文字或非結構化資料產生合成資料。

  • 目前支援下列資料類型:

    資料類型名稱
    BIGINT
    BOOLEAN
    CHAR
    DATE
    DECIMAL
    FLOAT
    INTEGER
    LONG
    REAL
    SHORT
    SMALLINT
    TIME
    TIMESTAMP_LTZ
    TIMESTAMP_NTZ
    TINYINT
    VARCHAR

限制:

  • 對於合成資料產生,預測資料欄的數量上限為 1。

  • 如果目標欄是分類的,則原始資料集中的類別數量上限為 100。

  • 在原始資料集中,資料列數目必須介於 1,500 到 250 萬之間,且資料欄數目上限為 1,000。對於目標欄中的非空值,資料列的最小數量為 1,000。

隱私權指標:

  • Clean Rooms ML 提供隱私權分數,可測量產生的合成資料對成員資格推論攻擊 (MIAs) 的保護程度。此服務會從合成程序中保留 5% 的原始資料來計算此分數。

  • 接近 50% 的分數被視為良好;分數越高表示對 MIAs 的保護越少。顯著低於 50% 的分數很罕見,可能是因為合成資料中原始資料的模式未呈現。

下游自訂模型:

  • Clean Rooms ML 中產生的合成資料最適合訓練二進位分類模型和最多五個類別的多類別分類模型。

  • 使用 Clean Rooms ML 中產生的合成資料訓練迴歸模型可能會導致模型準確性低,如根均方誤差 (RMSE) 所測量。