本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立 SQL 分析範本
先決條件
建立 SQL 分析範本之前,您必須擁有:
-
主動 AWS Clean Rooms 協同合作
-
在協同合作中存取至少一個已設定的資料表
如需在 中設定資料表的詳細資訊 AWS Clean Rooms,請參閱 在 中建立設定的資料表 AWS Clean Rooms。
-
建立分析範本的許可
-
SQL 查詢語法的基本知識
下列程序說明使用 AWS Clean Rooms 主控台
如需有關如何使用 AWS SDKs建立 SQL 分析範本的資訊,請參閱 AWS Clean Rooms API 參考。
建立 SQL 分析範本
-
登入 AWS 管理主控台 ,並使用 開啟 AWS Clean Rooms 主控台
AWS 帳戶 ,以做為協同合作建立者。 -
在左側導覽窗格中,選擇協同合作。
-
選擇協同合作。
-
在範本索引標籤上,前往您建立的分析範本區段。
-
選擇建立分析範本。
-
在建立分析範本頁面上,如需詳細資訊,
-
輸入分析範本的名稱。
-
(選用) 輸入描述。
-
對於格式,保持選取 SQL 選項。
-
-
對於資料表,檢視與協同合作相關聯的已設定資料表。
-
對於定義,
-
輸入分析範本的定義。
-
選擇從 匯入以匯入定義。
-
(選用) 在 SQL 編輯器中指定參數,方法是在參數名稱前面輸入冒號 (
:)。例如:
WHERE table1.date + :date_period > table1.date
-
-
如果您先前已新增參數,請在參數 - 選用下,為每個參數名稱選擇類型和預設值 (選用)。
-
對於合成資料,如果您想要為模型訓練產生合成資料,請選取需要分析範本輸出為合成核取方塊。
如需詳細資訊,請參閱隱私權增強合成資料集產生。
-
對於資料欄分類,請從下拉式清單中選擇資料欄。至少需要五個資料欄。
-
從下拉式清單中選擇分類。這會識別每個資料欄的資料類型。
分類類型包括:
-
數值 – 連續數值,例如測量或計數
-
分類 – 離散值或類別,例如標籤或類型
-
-
若要移除資料欄,請選取移除。
-
若要新增另一個資料欄,請選取新增另一個資料欄。從下拉式清單中選擇資料欄和分類。
-
對於預測值,請從下拉式清單中選擇資料欄。這是自訂模型在訓練合成資料集之後用於預測的資料欄。
-
-
進階設定可讓您設定隱私權層級和隱私權閾值。調整設定以符合您的需求。
-
針對隱私權層級,輸入 epsilon 值,以判斷合成模型為保護所產生資料集的隱私權所新增的雜訊。值必須介於 0.0001 和 10 之間。
-
較低的值會增加更多雜訊,提供更強大的隱私權保護,但可能會減少對此資料訓練的下游自訂模型的公用程式。
-
較高的值會增加較少的雜訊,提供更高的準確性,但可能會降低隱私權保護。
針對隱私權閾值,輸入成員資格推論攻擊可以識別原始資料集成員的最高允許機率。值必須介於 50.0 和 100 之間。
-
分數為 50% 表示成員推論攻擊無法成功區分成員與非成員,比隨機猜測更好。
-
對於沒有隱私權限制,請輸入 100%。
最佳值取決於您的特定使用案例和隱私權需求。如果超過隱私權閾值,ML 輸入通道建立會失敗,而且您無法使用合成資料集來訓練模型。
-
-
警告
合成資料產生可防止推斷個別屬性,無論原始資料集中是否存在特定個人,或是否存在這些個人的學習屬性。不過,它不會阻止原始資料集的常值出現,包括個人身分識別資訊 (PII) 出現在合成資料集中。
建議您避免輸入資料集中僅與一個資料主體相關聯的值,因為這些值可能會重新識別資料主體。例如,如果只有一個使用者住在郵遞區號中,則合成資料集中是否存在該郵遞區號,會確認使用者位於原始資料集中。可以使用截斷高精確度值或將不常見目錄取代為其他 等技術來降低此風險。這些轉換可以是用來建立 ML 輸入通道之查詢的一部分。
-
-
如果您想要為資源啟用標籤,請選擇新增標籤,然後輸入金鑰和值對。
-
選擇建立。
-
您現在可以通知協同合作成員,他們可以檢閱分析範本。(如果您想要查詢自己的資料,則為選用。)