合成データ生成に関する考慮事項 - AWS Clean Rooms

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

合成データ生成に関する考慮事項

AWS Clean Rooms ML を使用すると、コラボレーションメンバーは、元のデータセットのサブジェクトを集合データセットから不可逆的に識別解除してカスタム機械学習モデルをトレーニングする合成データセットを作成できます。コラボレーションを作成するときは、合成データ生成に対して誰が支払うかを指定するように支払い情報を設定する必要があります。合成データセットを生成し、カスタム機械学習モデルをトレーニングするための大まかな手順は次のとおりです。

  1. コラボレーションメンバーは、以下を含む分析テンプレートを作成します。

    • 合成するデータセットを定義するために必要な SQL。

    • 合成データがデータプロバイダーのコンプライアンス要件を満たしていることを確認するために使用されるプライバシー関連の設定。

  2. すべてのデータプロバイダーが分析テンプレートを承認すると、コラボレーションクエリランナーはテンプレートを使用して機械学習 (ML) 入力チャネルを作成します。

  3. Clean Rooms ML は合成データセットを生成し、分析テンプレートで指定されたプライバシーしきい値を満たしていることを確認します。

  4. すべてのしきい値が満たされると、ML 入力チャネルに合成データセットが入力されます。

  5. その後、この ML 入力チャネルを使用して、コラボレーションに関連付けられたカスタム ML モデルをトレーニングできます。

重要な考慮事項:

  • Clean Rooms ML で生成された合成データは、元のデータセットで見つかった個人を特定できる情報 (PII) を含む個々の値を削除、編集、難読化、またはサニタイズしません。合成データセットは、元のデータセットからレコード全体ではなく値をサンプリングすることによって生成されます。

  • 元のデータセットに同様の行が含まれている場合、合成データには元のデータセットの行と同じように見える行が含まれている可能性があります。

データセットの準備:

  • クラス分散が著しく不均衡な列は避けてください。これは、予測値または「Y」列にとって特に重要です。極端な不均衡により、合成データセットの全体的なプライバシーが低下します。

  • Clean Rooms ML は、シーケンシャルレコード間の相関関係を維持することが重要な時系列データからの合成データの生成をサポートしていません。

  • Clean Rooms ML は、テキストデータまたは非構造化データからの合成データの生成をサポートしていません。

  • 以下のデータ型 (タイプ) がサポートされています。

    データ型名
    BIGINT
    BOOLEAN
    CHAR
    DATE
    DECIMAL
    FLOAT
    INTEGER
    LONG
    REAL
    SHORT
    SMALLINT
    TIME
    TIMESTAMP_LTZ
    TIMESTAMP_NTZ
    TINYINT
    VARCHAR

機能制限:

  • 合成データ生成の場合、予測列の最大数は 1 です。

  • ターゲット列がカテゴリ別である場合、元のデータセットのカテゴリの最大数は 100 です。

  • 元のデータセットでは、行数は 1,500~250 万で、最大列数は 1.000 です。ターゲット列の null 以外の値の場合、最小行数は 1,000 です。

プライバシーメトリクス:

  • Clean Rooms ML は、生成された合成データがメンバーシップ推論攻撃 (MIAs) に対してどのように保護されているかを測定するプライバシースコアを提供します。このサービスは、合成プロセスから元のデータの 5% を保持して、このスコアを計算します。

  • 50% に近いスコアは良好と見なされます。スコアが高いほど、MIAs に対する保護が低いことを示します。スコアが 50% を大幅に下回ることはまれであり、合成されたデータ内の元のデータからパターンが表現されないことが原因である可能性があります。

ダウンストリームカスタムモデル:

  • Clean Rooms ML で生成された合成データは、最大 5 つのクラスを持つ二項分類モデルと複数クラス分類モデルのトレーニングに最適です。

  • Clean Rooms ML で生成された合成データを使用して回帰モデルをトレーニングすると、二乗平均平方根誤差 (RMSE) で測定されるモデルの精度が低下する可能性があります。