

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon S3 中准备数据表
<a name="prepare-data-S3"></a>

您可以分析已编目 AWS Glue 并存储在 Amazon S3 中的数据表。如果您的数据表已在中编目 AWS Glue，请跳至。[在中创建配置表 AWS Clean Rooms](create-configured-table.md)

**重要**  
在 Amazon S3 中准备数据以供使用时 AWS Clean Rooms，必须确保您的 AWS Glue 表位置与存储数据文件的目录路径完全匹配。  
例如：如果您的数据存储在 ``s3://mybucket/folder/subfolder/data.parquet`` 中，则您的 AWS Glue 表位置必须指向 ``s3://mybucket/folder/subfolder/`。将表位置设置为父目录 (``s3://mybucket/folder/``) 将导致查询时表显示为空。

在 Amazon S3 中准备数据表涉及以下步骤：

**Topics**
+ [步骤 1：完成先决条件](#prep-data-tables-prereq)
+ [步骤 2：（可选）准备用于加密计算的数据](#optional-encrypt)
+ [步骤 3：将数据表上传到 Amazon S3](#upload-to-s3)
+ [步骤 4：创建 AWS Glue 表](#create-glue-crawler)
+ [步骤 5：后续步骤](#prepare-data-S3-next)

## 步骤 1：完成先决条件
<a name="prep-data-tables-prereq"></a>

要准备数据表以供使用 AWS Clean Rooms，必须满足以下先决条件：
+ 您的数据表将另存[为支持的数据格式](data-formats.md)之一 AWS Clean Rooms。
+ 您的数据表已编入目录 AWS Glue ，并使用[支持的数据类型。 AWS Clean Rooms](data-formats.md#data-types)
+ 您的所有数据表都存储在亚马逊简单存储服务 (Amazon S3) 中， AWS 区域 与创建协作时相同。
+  AWS Glue Data Catalog 必须与协作位于同一区域。
+ 与 AWS Glue Data Catalog 成员资格 AWS 账户 相同。
+ Amazon S3 存储桶未向注册 AWS Lake Formation。

## 步骤 2：（可选）准备用于加密计算的数据
<a name="optional-encrypt"></a>

（可选）如果您使用的是加密计算，并且您的数据表包含要加密的敏感信息，则必须使用 C3R 加密客户端对数据表进行加密。

要为加密计算准备数据，请按照[使用 Clean Rooms 加密计算准备加密的数据表](prepare-encrypted-data.md)中的步骤操作。

## 步骤 3：将数据表上传到 Amazon S3
<a name="upload-to-s3"></a>

**注意**  
如果您打算在协作中使用加密的数据表，则必须先加密数据以进行加密计算，然后再将数据表上传到 Amazon S3。有关更多信息，请参阅 [使用 Clean Rooms 加密计算准备加密的数据表](prepare-encrypted-data.md)。

**将数据表上传到 Amazon S3**

1. 登录 AWS 管理控制台 并打开 Amazon S3 控制台，网址为[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)。

1. 选择**桶**，然后选择您想要用于存储数据表的桶。

1. 选择**上传**，然后按照提示进行操作。

1. 选择**对象**选项卡，查看存储数据的前缀。记下文件夹的名称。

   您可以选择用于查看数据的文件夹。

## 步骤 4：创建 AWS Glue 表
<a name="create-glue-crawler"></a>

如果您已经有 AWS Glue 数据表，则可以跳过此步骤。

在此步骤中，您将在中设置一个爬虫 AWS Glue 来抓取 S3 存储桶中的所有文件并创建 AWS Glue 表。有关更多信息，请参阅《AWS Glue 用户指南**》中的[定义 AWS Glue中的爬网程序](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html)。

有关支持 AWS Glue Data Catalog 的数据类型的更多信息，请参阅[支持的数据类型](data-formats.md#data-types)。

**注意**  
AWS Clean Rooms 目前不支持向注册的 S3 存储桶。 AWS Lake Formation

以下过程描述了如何创建 AWS Glue 表。如果要使用带有 AWS Key Management Service (AWS KMS) 密钥的加密 AWS Glue Data Catalog 对象，则需要配置 KMS 密钥权限策略以允许访问该加密表。有关更多信息，请参阅《AWS Glue 开发人员指南》**中的[在 AWS Glue 中设置加密](https://docs.aws.amazon.com/glue/latest/dg/set-up-encryption.html)。

**创建 AWS Glue 表**

1. 按照《*AWS Glue 用户指南*》中的 “在[AWS Glue 控制台上使用抓取工具](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)” 步骤进行操作。

1. 记下 AWS Glue 数据库名称和 AWS Glue 表名。

## 步骤 5：后续步骤
<a name="prepare-data-S3-next"></a>

现在，您已经在 Amazon S3 中准备好了数据表，您已准备好：
+ [创建配置表](create-configured-table.md)。
+ [创建 ML 模型](working-with-machine-learning-tdp.md)

可以在以下之后查询这些表：
+ 协作创建者已在 AWS Clean Rooms中建立了协作。有关更多信息，请参阅 [创建协作](create-collaboration.md)。
+ 协作创建者已将协作 ID 发送给作为协作参与者的您。