プライバシー強化合成データセットの生成 - AWS Clean Rooms

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

プライバシー強化合成データセットの生成

合成データセットには、基になる元のデータセットと同様の統計プロパティがありますが、元のデータセットに存在する実際の観測値は含まれません。プライバシーが強化された合成データセットを使用することで、データプライバシーの懸念が以前に妨げられていた新しい機械学習 (ML) モデルトレーニングのユースケースをロック解除できます。ML 入力チャネルを作成すると、ML モデルのトレーニング中に機密情報を保護するための合成データを生成できます。

合成データを使用してテンプレートを作成するときは、以下を行う必要があります。

  • テンプレート出力は合成である必要があります

  • 出力スキーマ列を数値またはカテゴリとして分類する

  • 組織のニーズに基づいて合成データをカスタマイズする

  • プライバシー設定を調整します。

    • プライバシーレベルを設定する (イプシロン)

    • プライバシーしきい値を設定する

警告

合成データ生成は、特定の個人が元のデータセットに存在するか、それらの個人の学習属性が存在するかにかかわらず、個々の属性を推測するのを防ぎます。ただし、個人を特定できる情報 (PII) を含む元のデータセットのリテラル値が合成データセットに表示されるのを防ぐことはできません。

1 つのデータセットのみに関連付けられている入力データセット内の値は、データセットを再識別する可能性があるため、避けることをお勧めします。たとえば、郵便番号にユーザーが 1 人しかいない場合、合成データセットにその郵便番号が存在すると、そのユーザーが元のデータセットに属していたことが確認されます。高精度値の切り捨てや、まれなカタログを他のカタログに置き換えるなどの手法を使用して、このリスクを軽減できます。これらの変換は、ML 入力チャネルの作成に使用されるクエリの一部にすることができます。

カスタムモデルトレーニングの合成データを生成する方法の詳細については、「」を参照してくださいSQL 分析テンプレートの作成

合成出力を含む分析テンプレートは、ML 入力チャネルの作成にのみ使用できます。詳細については、「AWS Clean Rooms ML での ML 入力チャネルの作成」を参照してください。