

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 隱私權增強的合成資料集產生
<a name="synthetic-data-generation"></a>

*合成資料集*具有與其基於的原始資料集類似的統計屬性，但不包含存在於原始資料集中的真實世界觀察。透過使用隱私權增強的合成資料集，您可以解鎖資料隱私權先前所考量的新機器學習 (ML) 模型訓練使用案例。當您建立 ML 輸入通道時，您可以產生合成資料，以在訓練 ML 模型時保護敏感資訊。

使用合成資料建立範本時，您必須：
+ 要求範本輸出為合成
+ 將輸出結構描述資料欄分類為數值或分類
+ 根據組織需求自訂合成資料
+ 調整隱私權設定：
  + 設定隱私權層級 (epsilon)
  + 設定隱私權閾值

**警告**  
合成資料產生可防止推斷個別屬性，無論原始資料集中是否存在特定個人，或這些個人的學習屬性是否存在。不過，它不會阻止原始資料集的常值，包括個人身分識別資訊 (PII) 出現在合成資料集中。  
我們建議您避免輸入資料集中的值僅與一個資料主體相關聯，因為這些值可能會重新識別資料主體。例如，如果只有一個使用者住在郵遞區號中，則合成資料集中是否存在該郵遞區號，會確認該使用者位於原始資料集中。可以使用截斷高精確度值或將不常見目錄取代為*其他* 等技術來降低此風險。這些轉換可以是用來建立 ML 輸入通道之查詢的一部分。

如需如何為自訂模型訓練產生合成資料的詳細資訊，請參閱 [建立 SQL 分析範本](create-sql-analysis-template.md)。

具有合成輸出的分析範本只能用來建立 ML 輸入通道。如需詳細資訊，請參閱[在 AWS Clean Rooms ML 中建立 ML 輸入通道](create-ml-input-channel.md)。