

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 的数据格式 AWS Clean Rooms
<a name="data-formats"></a>

要分析数据，数据集必须采用 AWS Clean Rooms 支持的格式。

**Topics**
+ [PySpark 作业支持的数据格式](#supported-data-formats-pyspark)
+ [SQL 查询支持的数据格式](#supported-data-formats)
+ [支持的数据类型](#data-types)
+ [的文件压缩类型 AWS Clean Rooms](#compression-types)
+ [服务器端加密 AWS Clean Rooms](#server-side-encryption)

## PySpark 作业支持的数据格式
<a name="supported-data-formats-pyspark"></a>

AWS Clean Rooms 支持以下结构化格式来运行 PySpark 作业。
+ Parquet
+ OpenCSV
+ JSON

## SQL 查询支持的数据格式
<a name="supported-data-formats"></a>

AWS Clean Rooms 支持以下用于运行 SQL 查询的结构化格式。
+ [Apache Iceberg 表](iceberg-tables.md)
+ Parquet
+ OpenCSV
+ JSON

**注意**  
文本文件中的 `timestamp` 值必须采用 `yyyy-MM-dd HH:mm:ss.SSSSSS` 格式。例如：`2017-05-01 11:30:59.000000`。

我们建议使用列式存储文件格式（例如 Apache Parquet）。使用列式存储文件格式，您可以通过仅选择所需的列来最大限度地减少数据移动。为了获得最佳性能，应将大型对象拆分为 100 MB - 1 GB 的对象。

## 支持的数据类型
<a name="data-types"></a>

AWS Clean Rooms 支持以下数据类型。
+ ARRAY
+ BIGINT
+ BOOLEAN
+ BYTE
+ CHAR
+ DATE
+ DECIMAL
+ FLOAT
+ INTEGER
+ INTERVAL
+ LONG
+ MAP
+ REAL
+ SHORT
+ SMALLINT
+ STRUCT
+ TIME
+ TIMESTAMP\$1LTZ
+ TIMESTAMP\$1NTZ
+ TINYINT
+ VARCHAR

有关更多信息，请参阅 *AWS Clean Rooms SQL 参考*中的[数据类型](https://docs.aws.amazon.com/clean-rooms/latest/sql-reference/s_Supported_data_types.html)。

## 的文件压缩类型 AWS Clean Rooms
<a name="compression-types"></a>

要减少存储空间、提高性能和最大程度地降低成本，我们强烈建议您压缩数据集。

AWS Clean Rooms 根据文件扩展名识别文件压缩类型，并支持下表所示的压缩类型和扩展名。


| 压缩算法  | 文件扩展名  | 
| --- | --- | 
| GZIP | .gz  | 
| Bzip2 | .bz2  | 
| Snappy | .snappy | 

可以在不同的级别应用压缩。最常见的情况是，压缩整个文件或压缩文件中的单个块。在文件级压缩列格式不会产生性能优势。

## 服务器端加密 AWS Clean Rooms
<a name="server-side-encryption"></a>

**注意**  
对于需要加密计算的使用案例，服务器端加密并不能取代加密计算。

AWS Clean Rooms 透明地解密使用以下加密选项加密的数据集：
+ **SSE-S3** — 使用由 Amazon S3 管理的 AES-256 加密密钥的服务器端加密
+ **SSE-KMS** — 使用由管理的密钥进行服务器端加密 AWS Key Management Service 

要使用 SSE-S3，用于将配置的表与协作关联的 AWS Clean Rooms 服务角色必须具有 KMS-Decrypt 权限。要使用 SSE-KMS，KMS 密钥策略还必须允许 AWS Clean Rooms 服务角色解密。

AWS Clean Rooms 不支持 Amazon S3 客户端加密。有关服务器端加密的更多信息，请参阅《Amazon Simple Storage Service 用户指南》**中的[使用服务器端加密保护数据](https://docs.aws.amazon.com/AmazonS3/latest/userguide/serv-side-encryption.html)。