隱私權增強的合成資料集產生

合成資料集具有與其基於的原始資料集類似的統計屬性，但不包含存在於原始資料集中的真實世界觀察。透過使用隱私權增強的合成資料集，您可以解鎖資料隱私權先前所考量的新機器學習 (ML) 模型訓練使用案例。當您建立 ML 輸入通道時，您可以產生合成資料，以在訓練 ML 模型時保護敏感資訊。

使用合成資料建立範本時，您必須：

要求範本輸出為合成
將輸出結構描述資料欄分類為數值或分類
根據組織需求自訂合成資料
調整隱私權設定：
- 設定隱私權層級 (epsilon)
- 設定隱私權閾值

警告

合成資料產生可防止推斷個別屬性，無論原始資料集中是否存在特定個人，或這些個人的學習屬性是否存在。不過，它不會阻止原始資料集的常值，包括個人身分識別資訊 (PII) 出現在合成資料集中。

建議您避免輸入資料集中僅與一個資料主體相關聯的值，因為這些值可能會重新識別資料主體。例如，如果只有一個使用者住在郵遞區號中，則合成資料集中是否存在該郵遞區號，會確認該使用者位於原始資料集中。可以使用截斷高精確度值或將不常見目錄取代為其他等技術來降低此風險。這些轉換可以是用來建立 ML 輸入通道之查詢的一部分。

如需如何為自訂模型訓練產生合成資料的詳細資訊，請參閱建立 SQL 分析範本。

具有合成輸出的分析範本只能用來建立 ML 輸入通道。如需詳細資訊，請參閱在 AWS Clean Rooms ML 中建立 ML 輸入通道。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

自訂建模

合成資料產生的考量事項