在 AWS Clean Rooms ML 中貢獻訓練資料 - AWS Clean Rooms

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS Clean Rooms ML 中貢獻訓練資料

協同合作建立者建立協同合作並邀請成員加入後,您就可以將訓練資料提供給協同合作。任何成員都可以貢獻訓練資料。

Console
貢獻訓練資料 (主控台)
  1. 登入 AWS Management Console 並開啟位於 https://https://console.aws.amazon.com/cleanrooms 的 AWS Clean Rooms 主控台。

  2. 在左側導覽窗格中,選擇 Tables (資料表)

  3. 資料表頁面上,選擇設定新資料表

  4. 針對設定新資料表,針對資料來源選擇 Amazon S3Amazon AthenaSnowflake,並根據您的資料來源完成下列步驟:

    如果您使用的是 然後
    Amazon Simple Storage Service (Amazon S3)
    1. 從下拉式清單中選擇資料庫,然後從資料庫中選取資料表

    2. 針對協同合作中允許的欄,選擇所有欄自訂清單

    3. 如需已設定的資料表詳細資訊,請提供此資料表的名稱和選用的描述

    4. 如果您想要報告模型指標,請輸入指標的名稱Regex 陳述式,以搜尋輸出日誌來尋找指標。

    5. 如果您想要為設定的資料表資源啟用標籤,請選擇新增標籤,然後輸入金鑰對。

    Amazon Athena
    1. 從下拉式清單中選擇資料庫,然後從資料庫中選取資料表

    2. 針對協同合作中允許的欄,選擇所有欄自訂清單

    3. 如需已設定的資料表詳細資訊,請提供此資料表的名稱和選用的描述

    4. 如果您想要報告模型指標,請輸入指標的名稱Regex 陳述式,以搜尋輸出日誌來尋找指標。

    5. 如果您想要為設定的資料表資源啟用標籤,請選擇新增標籤,然後輸入金鑰對。

    Snowflake
    1. 使用現有的秘密 ARN 指定 Snowflake 登入資料,或儲存此資料表的新秘密。

    2. 對於 Snowflake 資料表和結構描述詳細資訊,請手動輸入詳細資訊或自動匯入詳細資訊。

    3. 針對結構描述,輸入資料欄名稱,然後從下拉式清單中選擇資料類型

    4. 如果您想要為設定的資料表資源啟用標籤,請選擇新增標籤,然後輸入金鑰對。

  5. 選擇設定新資料表

  6. 在資料表詳細資訊頁面上,選擇設定分析規則來設定此資料表的自訂分析規則。自訂分析規則會限制對資料的存取。您可以允許資料上一組特定的預先授權查詢,或允許一組特定的帳戶查詢您的資料。

    1. 對於分析規則類型,選擇自訂,對於建立方法,選擇引導流程

    2. 選擇下一步

    3. 對於指定分析控制項,請在檢閱每個新分析允許特定協作者的任何分析之間進行選擇。

    4. 選擇下一步

    5. (選用) 對於指定分析結果控制項,對於輸出中不允許的資料欄,請指定是否要從輸出中排除任何資料欄。如果您選擇,則不會從輸出中排除任何資料欄。如果您選擇自訂清單,您可以指定要從輸出中移除的特定資料欄。

    6. 對於套用至輸出的其他分析,指定您是否要允許、拒絕或要求在產生結果之前進行其他分析。

    7. 選擇下一步

    8. (選用) 針對設定差異隱私權,選擇關閉

    9. 選擇下一步

    10. 檢閱檢閱和設定頁面上的資訊,然後選擇設定分析規則

  7. 在資料表詳細資訊頁面中,選擇關聯以協同合作

  8. 關聯資料表對話方塊中,選取您要將此資料表與之關聯的協同合作,然後選擇選擇協同合作

  9. 關聯資料表頁面上,檢閱並驗證資料表關聯詳細資訊服務存取標籤中的資訊。選擇關聯資料表

  10. 在您相關聯的資料表中,選取您剛相關聯的資料表旁的選項按鈕。從動作功能表中,選擇協作分析規則群組中的設定

  11. 設定協同合作分析規則頁面上,針對允許的額外分析,選擇任何協同合作成員或特定協同合作成員是否可以執行其他分析。

    針對結果交付,選擇哪些成員可以接收查詢輸出的結果。

  12. 選擇設定分析規則

API

貢獻訓練資料 (API)

  1. 透過 AWS Clean Rooms 提供可使用的 AWS Glue 資料表和資料欄,設定在 中使用的現有資料表。

    使用特定參數執行下列程式碼。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table( name='configured_table_name', tableReference= { 'glue': { 'tableName': 'glue_table_name', 'databaseName': 'glue_database_name' } }, analysisMethod="DIRECT_QUERY", allowedColumns=["column1", "column2", "column3",...] )
  2. 設定自訂分析規則,以限制對資料的存取。您可以允許資料上一組特定的預先授權查詢,或允許一組特定的帳戶查詢您的資料。

    使用特定參數執行下列程式碼。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table_analysis_rule( configuredTableIdentifier='configured_table_id', analysisRuleType='CUSTOM', analysisRulePolicy= { 'v1': { 'custom': { 'allowedAnalyses': ['ANY_QUERY'], 'allowedAnalysisProviders': ['query_runner_account'], 'additionalAnalyses': "REQUIRED" } } } )

    在此範例中,允許特定帳戶對資料執行任何查詢,且需要額外的分析。

  3. 將設定的資料表與協同合作建立關聯,並提供 AWS Glue 資料表的服務存取角色。

    使用特定參數執行下列程式碼。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table_association( name='configured_table_association_name', membershipIdentifier='membership_id', configuredTableIdentifier='configured_table_id', roleArn='arn:aws:iam::account:role/role_name' )
    注意

    此服務角色具有資料表的許可。服務角色只能由 擔任 AWS Clean Rooms ,以代表可查詢的成員執行允許的查詢。協作成員 (資料擁有者除外) 無法存取協作中的基礎資料表。資料擁有者可以關閉差異隱私權,使其資料表可供其他成員查詢。

  4. 最後,將分析規則新增至設定的資料表關聯。

    使用特定參數執行下列程式碼。

    import boto3 acr_client= boto3.client('cleanrooms') acr_client.create_configured_table_association_analysis_rule( configuredTableAssociationIdentifier='configured_table_association_identifier', membershipIdentifier='membership_id', configuredTableIdentifier='configured_table_id', analysisRuleType = 'CUSTOM', analysisRulePolicy= { 'v1': { 'custom': { 'allowedAdditionalAnalyses': ['configured_model_algorithm_association_arns'], 'allowedResultReceivers': ['query_runner_account'] } } } )