为查询和作业创建协作 - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为查询和作业创建协作

在此过程中,您作为协作创建者将执行以下任务:

在开始之前,请确保您已完成以下先决条件:

  • 您拥有要邀请参与合作的每位成员的姓名和 AWS 账户 ID。

  • 您有权与协作的所有成员共享每个成员的姓名和 AWS 账户 ID。

    注意

    创建协作后,您无法添加更多成员。

有关如何使用创建协作的信息 AWSSDKs,请参阅 AWS Clean RoomsAPI 参考

为查询和作业创建协作
  1. 登录AWS 管理控制台并使用将充当协作创建者的AWS Clean Rooms控制台打开控制台。AWS 账户

  2. 在左侧导航窗格中,选择协作

  3. 在右上角,选择创建协作

  4. 对于步骤 1: 定义协作,请执行以下操作:

    1. 详细信息中,输入协作的名称描述

      受邀参与协作的协作成员将可以看到这些信息。名称描述可帮助他们了解协作的意义。

    2. 对于成员

      1. 对于成员 1: 您,输入您希望在协作中显示的成员显示名称

        注意

        员 AWS 账户 ID 会自动包含您的 AWS 账户 ID

      2. 在 “成员 2” 中,输入要邀请参与协作的成员的成员显示名称和成员 AWS 账户ID

        所有受邀参与协作的人都可以看到成员显示名称成员 AWS 账户 ID。输入并保存这些字段的值后将不可编辑这些值。

        注意

        您必须告知协作成员,协作中所有受邀和活跃的协作者都将看到他们的成员 AWS 账户 ID成员显示名称

      3. 如果要添加其他成员,请选择添加其他成员。然后,为每位成员输入成员的显示名称和成员 AWS 账户 ID,他们可以提供您想邀请参与协作的数据。

    3. 如果要启用分析日志记录,请选中启用分析日志记录复选框,然后选择支持的日志类型

      • 如果要接收从 SQL 查询生成的日志,请选中 “来自查询的日志” 复选框。

      • 如果要使用接收作业生成的日志 PySpark,请选中 “来自作业的日志” 复选框。

    4. 如果要启用详细监控,请选中 “启用详细监控” 复选框。

      分析运行者和配置的付款人可以在创建成员资格时选择启用详细指标。启用后,将发布详细的监控指标, CloudWatch 用于对协作进行运营监控,包括查询性能和资源利用率。这些指标将在各自的版本中提供给分析运行者和配置的付款AWS 账户人。

      有关 CloudWatch 定价的更多信息,请参阅CloudWatch 定价

    5. 在 “允许的查询结果区域” 下,选择一个或多个要将查询结果发送到AWS 区域的位置。

      默认情况下,仅选择当前区域(例如弗吉尼亚北部 us-east-1)。

      重要

      启用跨区域查询结果交付后,您的结果可能会在来源区域之外进行处理和存储。

      有关区域的更多信息,请参阅中的区域和终端节点AWS 一般参考

    6. (可选)通过配置无需手动批准变更请求即可自动更改哪些设置,通过自动更改请求批准来管理对数据的访问权限。默认情况下,某些设置只能通过提交变更请求来更改,变更请求必须得到所有成员的批准才能生效。

      • 授予成员能力-选择无需手动批准即可授予协作成员的能力。成员可以随时贡献数据。

        • 选择技能:

          • 贡献数据(始终启用)

          • 接收结果

        • 自动批准具有这些能力的新成员-如果允许,任何添加了上述所选能力的成员都将立即加入协作。添加了其他技能的成员仍需要手动批准才能加入。

      • 可以自动撤消的技能-选择无需手动批准即可撤消的技能。成员可以随时贡献数据。

        • 选择技能:

          • 贡献数据(始终启用)

          • 接收结果

      如果选择此选项,则可以通过协作详细信息页面的详细信息选项卡上的更改请求历史记录来跟踪所有协作配置的修改。

    7. (可选)如果要启用加密计算功能,请选中 “启用加密计算” 复选框。

      1. 选择以下加密覆盖率参数:

        • 允许 plaintext 列

          如果您需要完全加密的表,请选择 “”。

          如果您希望在加密表中允许 cleartext 列,请选择

          要在特定列上运行 SUM 或 AVG,这些列必须是 cleartext。

        • 保留 NULL 值

          如果您不希望保留 NULL 值,请选择。NULL 值不会在加密表中显示为 NULL。

          如果您希望保留 NULL 值,请选择。NULL 值将在加密表中显示为 NULL。

      2. 选择以下指纹识别参数:

        • 允许重复

          如果您不希望 fingerprint 列中允许重复条目,请选择

          如果您希望 fingerprint 列中允许重复条目,请选择

        • 允许对具有不同名称的列进行 JOIN

          如果您不希望对具有不同名称的 fingerprint 列进行联接,请选择

          如果您希望对具有不同名称的 fingerprint 列进行联接,请选择

      有关加密计算参数的更多信息,请参阅加密计算参数

      有关如何加密数据以便在中使用的更多信息AWS Clean Rooms,请参阅使用加密计算准备加密数据表 Clean Rooms

      注意

      在完成下一步之前,请仔细验证这些配置。创建协作后,您只能编辑协作名称、描述以及日志是否存储在 Amazon Lo CloudWatch gs 中。

    8. 如果要为协作资源启用标签,请选择添加新标签,然后输入对。

    9. 选择下一步

  5. 对于 “步骤 2:指定成员能力”,请执行以下操作:

    1. 对于使用查询和作业进行分析,在支持的分析类型下,选择作业复选框。

      默认情况下,“查询” 复选框处于选中状态。

      1. 从下拉列表中选择可以运行查询和作业的成员。

      2. 从下拉列表中选择可以从分析中接收结果的成员。

        注意

        创建 PySpark 分析模板的成员也必须是接收结果的成员。

    2. 如果您使用的是Clean Rooms ML,则使用专门构建的工作流程进行机器学习建模

      1. (可选)从下拉列表中选择可以从经过训练的模型接收输出的成员。

      2. (可选)从下拉列表中选择可以从模型推理中接收输出的成员。

    3. 使用查看 ID 解析下的成员能力AWS Entity Resolution 数据匹配服务。

    4. 选择下一步

  6. 对于第 3 步:配置付款

    1. 对于使用查询和作业进行分析,请选择将为查询和工作付费的成员。

      您可以将可以运行查询和作业的成员指定为支付查询和作业计算成本的成员。

      您可以分配其他成员来支付查询费用和任务计算费用。

    2. 对于使用专门构建的工作流程进行机器学习建模配置的相似模型的创建者是将为相似建模付费的成员。

    3. 对于 ID 解析AWS Entity Resolution 数据匹配服务,ID 映射表的创建者是将为 ID 映射表付费的成员。

    4. 选择下一步

  7. 对于 “步骤 4:配置成员资格”,请选择以下选项之一:

    Yes, join by creating membership now
    1. 对于结果设置的默认设置,对于查询结果设置,如果您是可以接收结果的成员,

      1. 选中 “设置查询的默认设置” 复选框。对于 Amazon S3 中的结果目标,输入亚马逊 S3 目标或选择 “浏览 S3” 选择 S3 存储桶。

      2. 对于查询结果格式,请选择 CSVPARQUET

      3. (仅限 Spark)对于结果文件,请选择 “多个” 或 “个”。

      4. (可选)对于服务访问权限,如果您想将最长需要 24 小时的查询传送到 S3 目标,请选中 “添加服务角色以支持最长需要 24 小时才能完成的查询” 复选框。

        最长需要 24 小时才能完成的大型查询将传送到您的 S3 目标。

        如果您不选中该复选框,则只有在 12 小时内完成的查询才会发送到您的 S3 位置。

      5. 通过选择创建并使用新的服务角色使用现有服务角色来指定服务访问权限

        如果你选择... 操作...
        创建并使用新的服务角色
        • AWS Clean Rooms使用此表所需的策略创建服务角色。

        • 默认服务角色名称cleanrooms-result-receiver-<timestamp>

        • 您必须拥有创建角色并附加策略的权限。

        使用现有服务角色
        1. 从下拉列表中选择一个现有服务角色名称

          如果您有列出角色的权限,则会显示角色列表。

          如果您没有列出角色的权限,可以输入要使用的角色的 Amazon 资源名称 (ARN)。

        2. 通过选择在 IAM 中查看外部链接来查看服务角色。

          如果没有现有的服务角色,则使用现有服务角色选项不可用。

          默认情况下,AWS Clean Rooms不会尝试更新现有角色策略以添加必要的权限。

        注意
        • AWS Clean Rooms需要权限才能根据分析规则进行查询。有关权限的更多信息AWS Clean Rooms,请参阅AWS的托管策略 AWS Clean Rooms

        • 如果该角色没有足够的权限AWS Clean Rooms,则会收到一条错误消息,指出该角色没有足够的权限AWS Clean Rooms。必须先添加角色策略,然后才能继续。

        • 如果您无法修改角色策略,则会收到一条错误消息,指出找AWS Clean Rooms不到该服务角色的策略。

    2. 要查看 Job 结果

      例如:s3://bucket/prefix

      1. 选中 “设置任务的默认设置” 复选框,然后通过输入 S3 目标在 Amazon S3 中指定结果目标,或者选择 “浏览 S3” 从可用 S3 存储桶列表中进行选择。

      2. 通过从下拉列表中选择现有服务角色名称来指定服务访问权限。

    3. 在 “日志” 设置中,为 Amazon Log CloudWatch s 中的日志存储选择以下选项之一:

      注意

      如果您选择启用查询日志记录,则会出现 “日志设置” 部分。

      1. 选择 “开启”,与您相关的查询日志将存储在您的 Amazon CloudWatch Logs 账户中。

        每个成员只能接收他们发起的查询或包含其数据的查询的日志。

        可以接收结果的成员还会收到协作中运行的所有查询的日志,即使查询中未访问他们的数据也是如此。

        支持的日志类型下,从协作创建者选择支持的日志类型中进行选择:

        在 “支持的日志类型” 下,“查询日志” 和 “Job Logs” 复选框默认处于启用状态。

        注意

        开启分析日志后,可能需要几分钟才能设置日志存储并开始在 Amazon Logs 中接收 CloudWatch 日志。在这段短暂的时间内,可以查询的成员可能会运行实际上并未发送日志的查询。

      2. 选择 “关闭”,与您相关的查询日志将不会存储在您的 Amazon CloudWatch Logs 账户中。

    4. 如果要为成员资源启用成员资格标签,请选择添加新标签,然后输入密钥对。

    5. 如果您是为 Query 计算或 J ob 计算或两者兼而有之付费的成员,请选中 “我同意支付此协作中的计算费用” 复选框,表示您接受。

      注意

      必须选中此复选框才能继续。

      有关如何计算费用的更多信息,请参阅的定价 AWS Clean Rooms

      如果您是支付查询计算费用的会员,但不是可以查询的成员,则建议您使用AWS Budgets来配置预算,AWS Clean Rooms并在达到最高预算后接收通知。有关设置预算的更多信息,请参阅《AWS Cost Management 用户指南》中的使用 AWS Budgets 管理成本。有关设置通知的更多信息,请参阅《AWS Cost Management 用户指南》中的针对预算通知创建 Amazon SNS 主题。如果已达到预算上限,您可以联系可以查询的成员或退出协作。如果您退出协作,将不再允许运行查询,因此将不再向您收取查询计算费用。

    6. 选择下一步

    同时创建协作和您的成员身份。

    您在协作中的状态为活跃。

    No, I will create a membership later
    1. 选择下一步

      仅创建协作。

      您在协作中的状态为非活跃。

  8. 对于 “步骤 5:查看并创建”,请执行以下操作:

    1. 查看您在之前的步骤中所做的选择,并在必要时进行编辑。

    2. 从以下选项中选择一个。

      如果您选择了... 则选择...
      同步创建成员身份和协作(是,立即通过创建成员身份来加入 创建协作和成员身份
      创建协作,此时不创建成员身份(不,我将稍后创建成员身份 创建协作

成功创建协作后,您可以在协作下看到协作详细信息页面。

您现在已准备好执行以下操作: