本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
隱私權增強的合成資料集產生
合成資料集具有與其基於的原始資料集類似的統計屬性,但不包含存在於原始資料集中的真實世界觀察。透過使用隱私權增強的合成資料集,您可以解鎖新的機器學習 (ML) 模型訓練使用案例,這些使用案例是資料隱私權之前所避免的。當您建立 ML 輸入通道時,您可以產生合成資料,以在訓練 ML 模型時保護敏感資訊。
使用合成資料建立範本時,您必須:
-
要求範本輸出為合成
-
將輸出結構描述資料欄分類為數值或分類
-
根據組織需求自訂合成資料
-
調整隱私權設定:
-
設定隱私權層級 (epsilon)
-
設定隱私權閾值
-
警告
合成資料產生可防止推斷個別屬性,無論原始資料集中是否存在特定個人,或是否存在這些個人的學習屬性。不過,它不會阻止原始資料集的常值出現,包括個人身分識別資訊 (PII) 出現在合成資料集中。
建議您避免輸入資料集中僅與一個資料主體相關聯的值,因為這些值可能會重新識別資料主體。例如,如果只有一個使用者住在郵遞區號中,則合成資料集中是否存在該郵遞區號,會確認使用者位於原始資料集中。可以使用截斷高精確度值或將不常見目錄取代為其他 等技術來降低此風險。這些轉換可以是用來建立 ML 輸入通道之查詢的一部分。
如需如何為自訂模型訓練產生合成資料的詳細資訊,請參閱 建立 SQL 分析範本。
具有合成輸出的分析範本只能用來建立 ML 輸入通道。如需詳細資訊,請參閱在 AWS Clean Rooms ML 中建立 ML 輸入通道。