SQL 分析テンプレートの作成 - AWS Clean Rooms

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SQL 分析テンプレートの作成

前提条件

SQL 分析テンプレートを作成する前に、以下が必要です。

  • アクティブな AWS Clean Rooms コラボレーション

  • コラボレーションで少なくとも 1 つの設定済みテーブルへのアクセス

    でテーブルを設定する方法については AWS Clean Rooms、「」を参照してくださいAWS Clean Roomsでの設定済みテーブルの作成

  • 分析テンプレートを作成するアクセス許可

  • SQL クエリ構文の基本知識

次の手順では、 AWS Clean Rooms コンソールを使用して SQL 分析テンプレートを作成するプロセスについて説明します。

AWS SDKs を使用して SQL 分析テンプレートを作成する方法については、 AWS Clean Rooms API リファレンスを参照してください。

SQL 分析テンプレートを作成するには
  1. にサインイン AWS マネジメントコンソール し、コラボレーションクリエーターとして機能する AWS アカウント でAWS Clean Rooms コンソールを開きます。

  2. 左のナビゲーションペインで、[コラボレーション] を選択します。

  3. コラボレーションを選択します。

  4. [テンプレート] タブで、[自分で作成した分析テンプレート] セクションに移動します。

  5. [分析テンプレートを作成] を選択します。

  6. 分析テンプレートの作成ページの「詳細」で、

    1. 分析テンプレートの名前を入力します。

    2. (オプション) [説明] を入力します。

    3. Format では、SQL オプションを選択したままにします。

  7. [テーブル] には、コラボレーションに関連する設定済みテーブルが表示されます。

  8. [定義] で以下の操作を行います。

    1. 分析テンプレートの定義を入力します。

    2. [インポート元] を選択して定義をインポートします。

    3. (オプション) SQL エディタで、パラメータ名の前にコロン (:) を入力してパラメータを指定します。

      例えば、次のようになります。

      WHERE table1.date + :date_period > table1.date

  9. 以前にパラメータを追加したことがある場合は、[パラメータ – オプション] で、パラメータ名ごとに [タイプ][既定値] (オプション) を選択します。

  10. 合成データの場合、モデルトレーニング用の合成データを生成する場合は、分析テンプレートの出力を合成にするチェックボックスをオンにします。

    詳細については、「プライバシーが強化された合成データセットの生成」を参照してください。

    1. 列分類で、ドロップダウンリストからを選択します。少なくとも 5 つの列が必要です。

      1. ドロップダウンリストから分類を選択します。これにより、各列のデータ型が識別されます。

        分類タイプには以下が含まれます。

        • 数値 – 測定値やカウントなどの連続した数値

        • カテゴリ – ラベルやタイプなどの個別の値やカテゴリ

      2. 列を削除するには、削除を選択します。

      3. 別の列を追加するには、別の列の追加を選択します。ドロップダウンリストから分類を選択します。

      4. 予測値で、ドロップダウンリストからを選択します。これは、合成データセットでトレーニングされた後、カスタムモデルが予測に使用する列です。

    2. 詳細設定では、プライバシーレベルプライバシーしきい値を設定できます。ニーズに合わせて設定を調整します。

      1. プライバシーレベルでは、イプシロン値を入力して、生成されたデータセットのプライバシーを保護するために合成モデルが追加するノイズの量を決定します。値は 0.0001~10 である必要があります。

        • 値を小さくするとノイズが増え、プライバシー保護が強化されますが、このデータでトレーニングされたダウンストリームカスタムモデルのユーティリティが低下する可能性があります。

        • 値を大きくするとノイズが少なくなり、精度が向上しますが、プライバシー保護が低下する可能性があります。

        プライバシーしきい値には、メンバーシップ推論攻撃が元のデータセットのメンバーを識別できる最大許容確率を入力します。値は 50.0~100 である必要があります。

        • スコアが 50% の場合、メンバーシップ推論攻撃では、ランダムな推測よりもメンバーと非メンバーを正常に区別できないことを示します。

        • プライバシー制限がない場合は、100% と入力します。

        最適な値は、特定のユースケースとプライバシー要件によって異なります。プライバシーしきい値を超えると、ML 入力チャネルの作成は失敗し、合成データセットを使用してモデルをトレーニングすることはできません。

    警告

    合成データ生成は、特定の個人が元のデータセットに存在するか、それらの個人の学習属性が存在するかにかかわらず、個々の属性の推測から保護します。ただし、個人を特定できる情報 (PII) を含む元のデータセットのリテラル値が合成データセットに表示されるのを防ぐことはできません。

    1 つのデータセットのみに関連付けられている入力データセット内の値は、データセットを再識別する可能性があるため、避けることをお勧めします。たとえば、郵便番号にユーザーが 1 人しかいない場合、合成データセットにその郵便番号が存在すると、そのユーザーが元のデータセットに属していたことが確認されます。高精度値の切り捨てや、まれなカタログを他のカタログに置き換えるなどの手法を使用して、このリスクを軽減できます。これらの変換は、ML 入力チャネルの作成に使用されるクエリの一部にすることができます。

  11. リソースのタグを有効にする場合は、新しいタグを追加を選択し、キー値のペアを入力します。

  12. [作成] を選択します。

  13. これで、コラボレーションメンバーに分析テンプレートを確認できることを通知する準備ができました。 (自身のデータにクエリを実行する場合は省略可能)