创建已配置的表-Amazon S3 数据源

在此步骤中，成员将执行以下任务：

配置现有 AWS Glue 表以在中使用。 AWS Clean Rooms（除非使用 Clean Rooms 加密计算，否则此步骤可以在加入协作之前或之后完成。）

注意
AWS Clean Rooms 支持 AWS Glue 表格。有关获取数据的更多信息 AWS Glue，请参阅步骤 3：将数据表上传到 Amazon S3。
为配置表命名，并选择要在协作中使用的列。

以下步骤假设：

协作成员已将其数据表上传到 Amazon S3 并创建了一个 AWS Glue 表。

注意
Amazon S3 中的结果目标不能与任何数据源位于同一 S3 存储桶中。
（可选）仅对于加密数据表，协作成员已经使用 C3R 加密客户端准备了加密数据表。

您可以使用提供的统计数据生成 AWS Glue 来计算表的列级统计数据。 AWS Glue Data Catalog 为数据目录中的表 AWS Glue 生成统计数据后，Amazon Redshift Spectrum 会自动使用这些统计数据来优化查询计划。有关使用计算列级统计信息的更多信息 AWS Glue，请参阅AWS Glue 用户指南中的使用列统计信息优化查询性能。有关更多信息 AWS Glue，请参阅 AWS Glue 开发人员指南。

创建已配置的表-Amazon S3 数据源

登录 AWS 管理控制台并在 https://console.aws.amazon.com/clean room AWS Clean Rooms s 上打开控制台。
在左侧导航窗格中，选择表。
在右上角，选择配置新表。
对于数据源，在AWS 数据源下，选择 Amazon S3。
在 Amazon S3 表格下：
1. 选择托管 S3 表的区域。
  
  默认情况下，选择当前区域（例如弗吉尼亚北部 us-east-1）。
  
  警告
  当您的 Amazon S3 数据源位于与您的处理位置不同的区域时，数据处理可能会暂时在源区域之外进行。在继续操作之前，请验证跨区域数据移动是否符合您的数据主权要求、监管合规政策和数据治理标准。
  
  有关区域的更多信息，请参阅中的区域和终端节点AWS 一般参考。
2. 从下拉列表中选择数据库。
3. 从下拉列表中选择要配置的表。
注意
要验证是否是正确的表，请执行以下任一操作：
- 选择 “查看方式” AWS Glue。
- 打开 “查看来自的架构” AWS Glue以查看架构。
重要
对于数据采用 CSV 格式的 AWS Glue 表，Glue 架构中的列名和顺序必须与 CSV 数据完全匹配。如果它们不对齐，则可能无法正确执行已配置表的允许列列表。
对于协作中允许的列和分析方法，
1. 您想在协作中允许哪些专栏？
  - 选择所有列以允许在协作中查询所有列。
  - 选择自定义列表以允许在协作中查询 “指定允许的列” 下拉列表中的一个或多个列。
2. 对于允许的分析方法，
  1. 选择 “直接查询” 以允许直接在此表上运行 SQL 查询
  2. 选择 Direct job 以允许直接在此表上运行 PySpark 作业。
例示例
例如，如果要允许协作成员在所有列上同时运行直接 SQL 查询和 PySpark 作业，请选择 “所有列”、“直接查询” 和 “直接作业”。
对于已配置表的详细信息，
1. 为已配置的表输入名称。
  
  您可以使用默认名称或重命名此表。
2. 输入表的描述。
  
  该描述有助于区分其他具有相似名称的已配置表。
如果要为已配置的表资源启用标签，请选择添加新标签，然后输入键和值对。
选择配置新表。

现在您已经创建了一个配置表，您已准备好：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

创建配置表

亚马逊 Athena 数据源

创建已配置的表-Amazon S3 数据源

注意

注意

创建已配置的表-Amazon S3 数据源

警告

注意

重要

例示例