隱私權增強的合成資料集產生 - AWS Clean Rooms

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

隱私權增強的合成資料集產生

合成資料集具有與其基於的原始資料集類似的統計屬性,但不包含存在於原始資料集中的真實世界觀察。透過使用隱私權增強的合成資料集,您可以解鎖新的機器學習 (ML) 模型訓練使用案例,這些使用案例是資料隱私權之前所避免的。當您建立 ML 輸入通道時,您可以產生合成資料,以在訓練 ML 模型時保護敏感資訊。

使用合成資料建立範本時,您必須:

  • 要求範本輸出為合成

  • 將輸出結構描述資料欄分類為數值或分類

  • 根據組織需求自訂合成資料

  • 調整隱私權設定:

    • 設定隱私權層級 (epsilon)

    • 設定隱私權閾值

警告

合成資料產生可防止推斷個別屬性,無論原始資料集中是否存在特定個人,或是否存在這些個人的學習屬性。不過,它不會阻止原始資料集的常值出現,包括個人身分識別資訊 (PII) 出現在合成資料集中。

建議您避免輸入資料集中僅與一個資料主體相關聯的值,因為這些值可能會重新識別資料主體。例如,如果只有一個使用者住在郵遞區號中,則合成資料集中是否存在該郵遞區號,會確認使用者位於原始資料集中。可以使用截斷高精確度值或將不常見目錄取代為其他 等技術來降低此風險。這些轉換可以是用來建立 ML 輸入通道之查詢的一部分。

如需如何為自訂模型訓練產生合成資料的詳細資訊,請參閱 建立 SQL 分析範本

具有合成輸出的分析範本只能用來建立 ML 輸入通道。如需詳細資訊,請參閱在 AWS Clean Rooms ML 中建立 ML 輸入通道