的数据格式 AWS Clean Rooms - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

的数据格式 AWS Clean Rooms

要分析数据,数据集必须采用AWS Clean Rooms支持的格式。

PySpark 作业支持的数据格式

AWS Clean Rooms支持以下结构化格式来运行 PySpark 作业。

  • Parquet

  • OpenCSV

  • JSON

SQL 查询支持的数据格式

AWS Clean Rooms支持用于运行 SQL 查询的不同结构化格式

Spark SQL analytics engine
注意

文本文件中的 timestamp 值必须采用 yyyy-MM-dd HH:mm:ss.SSSSSS 格式。例如:2017-05-01 11:30:59.000000

我们建议使用列式存储文件格式(例如 Apache Parquet)。使用列式存储文件格式,您可以通过仅选择所需的列来最大限度地减少数据移动。为了获得最佳性能,应将大型对象拆分为 100 MB - 1 GB 的对象。

支持的数据类型

AWS Clean Rooms支持不同的类型。

  • ARRAY

  • BIGINT

  • BOOLEAN

  • BYTE

  • CHAR

  • DATE

  • DECIMAL

  • FLOAT

  • INTEGER

  • INTERVAL

  • LONG

  • MAP

  • REAL

  • SHORT

  • SMALLINT

  • STRUCT

  • TIME

  • TIMESTAMP_LTZ

  • TIMESTAMP_NTZ

  • TINYINT

  • VARCHAR

有关更多信息,请参阅 AWS Clean RoomsSQL 参考中的数据类型

的文件压缩类型 AWS Clean Rooms

要减少存储空间、提高性能和最大程度地降低成本,我们强烈建议您压缩数据集。

AWS Clean Rooms根据文件扩展名识别文件压缩类型,并支持下表所示的压缩类型和扩展名。

压缩算法 文件扩展名
GZIP .gz
Bzip2 .bz2
Snappy .snappy

可以在不同的级别应用压缩。最常见的情况是,压缩整个文件或压缩文件中的单个块。在文件级压缩列格式不会产生性能优势。

服务器端加密 AWS Clean Rooms

注意

对于需要加密计算的使用案例,服务器端加密并不能取代加密计算。

AWS Clean Rooms透明地解密使用以下加密选项加密的数据集:

  • SSE-S3 — 使用由 Amazon S3 管理的 AES-256 加密密钥的服务器端加密

  • SSE-KMS — 服务器端加密,密钥由管理 AWS Key Management Service

要使用 SSE-S3,用于将配置的表与协作关联的AWS Clean Rooms服务角色必须具有 KMS-Decrypt 权限。要使用 SSE-KMS,KMS 密钥策略还必须允许AWS Clean Rooms服务角色解密。

AWS Clean Rooms不支持 Amazon S3 客户端加密。有关服务器端加密的更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的使用服务器端加密保护数据