创建已配置的表-Amazon S3 数据源 - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建已配置的表-Amazon S3 数据源

在此步骤中,成员将执行以下任务:

  • 配置现有 AWS Glue 表以在中使用。 AWS Clean Rooms(除非使用 Clean Rooms 加密计算,否则此步骤可以在加入协作之前或之后完成。)

    注意

    AWS Clean Rooms 支持 AWS Glue 表格。有关获取数据的更多信息 AWS Glue,请参阅步骤 3:将数据表上传到 Amazon S3

  • 配置表命名,并选择要在协作中使用的列。

以下步骤假设:

您可以使用提供的统计数据生成 AWS Glue 来计算表的列级统计数据。 AWS Glue Data Catalog 为数据目录中的表 AWS Glue 生成统计数据后,Amazon Redshift Spectrum 会自动使用这些统计数据来优化查询计划。有关使用计算列级统计信息的更多信息 AWS Glue,请参阅《AWS Glue 用户指南》中的使用列统计信息优化查询性能。有关更多信息 AWS Glue,请参阅 AWS Glue 开发人员指南

创建已配置的表-Amazon S3 数据源
  1. 登录 AWS Management Console 并在 https://console.aws.amazon.com/clean room AWS Clean Rooms s 上打开控制台。

  2. 在左侧导航窗格中,选择

  3. 在右上角,选择配置新表

  4. 对于数据源,在AWS 数据源下,选择 Amazon S3

  5. Amazon S3 表格下:

    1. 从下拉列表中选择数据库

    2. 从下拉列表中选择要配置的

    注意

    要验证是否是正确的表,请执行以下任一操作:

    • 选择 “在” 中查看 AWS Glue

    • 打开 “查看来自的架构” AWS Glue以查看架构。

    重要

    对于数据采用 CSV 格式的 AWS Glue 表,Glue 架构中的列名和顺序必须与 CSV 数据完全匹配。如果它们不对齐,则可能无法正确执行已配置表的允许列列表。

  6. 对于协作中允许的列和分析方法

    1. 您想在协作中允许哪些专栏?

      • 选择 “所有列” 以允许在协作中查询所有列。

      • 选择 “自定义列表” 以允许在协作中查询 “指定允许的列” 下拉列表中的一个或多个列。

    2. 对于允许的分析方法

      1. 选择 “直接查询” 以允许直接在此表上运行 SQL 查询

      2. 选择 Direct job 以允许直接在此表上运行 PySpark 作业。

    例 示例

    例如,如果要允许协作成员在所有列上同时运行直接 SQL 查询和 PySpark 作业,请选择 “所有列”、“直接查询” 和 “直接作业”。

  7. 对于已配置表的详细信息

    1. 为已配置的表输入名称

      您可以使用默认名称或重命名此表。

    2. 输入表的描述

      该描述有助于区分其他具有相似名称的已配置表。

  8. 如果要为已配置的表资源启用标签,请选择添加新标签,然后输入对。

  9. 选择配置新表

现在您已经创建了一个配置表,您已准备好: