建立 SQL 分析範本 - AWS Clean Rooms

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 SQL 分析範本

先決條件

建立 SQL 分析範本之前,您必須擁有:

  • 主動 AWS Clean Rooms 協同合作

  • 在協同合作中存取至少一個已設定的資料表

    如需在 中設定資料表的詳細資訊 AWS Clean Rooms,請參閱 在 中建立設定的資料表 AWS Clean Rooms

  • 建立分析範本的許可

  • SQL 查詢語法的基本知識

下列程序說明使用 AWS Clean Rooms 主控台建立 SQL 分析範本的程序。

如需有關如何使用 AWS SDKs建立 SQL 分析範本的資訊,請參閱 AWS Clean Rooms API 參考

建立 SQL 分析範本
  1. 登入 AWS 管理主控台 ,並使用 開啟 AWS Clean Rooms 主控台 AWS 帳戶 ,以做為協同合作建立者。

  2. 在左側導覽窗格中,選擇協同合作

  3. 選擇協同合作。

  4. 範本索引標籤上,前往您建立的分析範本區段。

  5. 選擇建立分析範本

  6. 建立分析範本頁面上,如需詳細資訊

    1. 輸入分析範本的名稱

    2. (選用) 輸入描述

    3. 對於格式,保持選取 SQL 選項。

  7. 對於資料表,檢視與協同合作相關聯的已設定資料表。

  8. 對於定義

    1. 輸入分析範本的定義。

    2. 選擇從 匯入以匯入定義。

    3. (選用) 在 SQL 編輯器中指定參數,方法是在參數名稱前面輸入冒號 (:)。

      例如:

      WHERE table1.date + :date_period > table1.date

  9. 如果您先前已新增參數,請在參數 - 選用下,為每個參數名稱選擇類型預設值 (選用)。

  10. 對於合成資料,如果您想要為模型訓練產生合成資料,請選取需要分析範本輸出為合成核取方塊。

    如需詳細資訊,請參閱隱私權增強合成資料集產生

    1. 對於資料欄分類,請從下拉式清單中選擇資料。至少需要五個資料欄。

      1. 從下拉式清單中選擇分類。這會識別每個資料欄的資料類型。

        分類類型包括:

        • 數值 – 連續數值,例如測量或計數

        • 分類 – 離散值或類別,例如標籤或類型

      2. 若要移除資料欄,請選取移除

      3. 若要新增另一個資料欄,請選取新增另一個資料欄。從下拉式清單中選擇資料分類

      4. 對於預測值,請從下拉式清單中選擇資料。這是自訂模型在訓練合成資料集之後用於預測的資料欄。

    2. 進階設定可讓您設定隱私權層級隱私權閾值。調整設定以符合您的需求。

      1. 針對隱私權層級,輸入 epsilon 值,以判斷合成模型為保護所產生資料集的隱私權所新增的雜訊。值必須介於 0.0001 和 10 之間。

        • 較低的值會增加更多雜訊,提供更強大的隱私權保護,但可能會減少對此資料訓練的下游自訂模型的公用程式。

        • 較高的值會增加較少的雜訊,提供更高的準確性,但可能會降低隱私權保護。

        針對隱私權閾值,輸入成員資格推論攻擊可以識別原始資料集成員的最高允許機率。值必須介於 50.0 和 100 之間。

        • 分數為 50% 表示成員推論攻擊無法成功區分成員與非成員,比隨機猜測更好。

        • 對於沒有隱私權限制,請輸入 100%。

        最佳值取決於您的特定使用案例和隱私權需求。如果超過隱私權閾值,ML 輸入通道建立會失敗,而且您無法使用合成資料集來訓練模型。

    警告

    合成資料產生可防止推斷個別屬性,無論原始資料集中是否存在特定個人,或是否存在這些個人的學習屬性。不過,它不會阻止原始資料集的常值出現,包括個人身分識別資訊 (PII) 出現在合成資料集中。

    建議您避免輸入資料集中僅與一個資料主體相關聯的值,因為這些值可能會重新識別資料主體。例如,如果只有一個使用者住在郵遞區號中,則合成資料集中是否存在該郵遞區號,會確認使用者位於原始資料集中。可以使用截斷高精確度值或將不常見目錄取代為其他 等技術來降低此風險。這些轉換可以是用來建立 ML 輸入通道之查詢的一部分。

  11. 如果您想要為資源啟用標籤,請選擇新增標籤,然後輸入金鑰對。

  12. 選擇建立

  13. 您現在可以通知協同合作成員,他們可以檢閱分析範本。(如果您想要查詢自己的資料,則為選用。)