

# 优化压缩
<a name="compaction-management"></a>

 使用 Apache Iceberg 等开放表格式的 Amazon S3 数据湖会将数据存储为 S3 对象。如果数据湖表中包含成千上万个 Amazon S3 小对象，则会增加元数据开销并影响读取性能。AWS Glue Data Catalog 为 Iceberg 表提供了托管式压缩功能，可将小对象压缩成较大的对象，以便提高 Amazon Athena 和 Amazon EMR 等 AWS 分析服务以及 AWS Glue ETL 作业的读取性能。Data Catalog 会在不干扰并发查询的情况下执行压缩，并且仅支持 Parquet 格式表的压缩。

表优化器会持续监控表分区，并在超过文件数量和文件大小阈值时启动压缩进程。

在 Data Catalog 中，当表或其中的任何分区包含超过 100 个文件时，压缩进程就会启动。每个文件必须小于目标文件大小的 75%。目标文件大小由 `write.target-file-size-bytes` 表属性定义，如果未显式设置，则默认为 512 MB。

 有关限制，请参阅[托管式数据压缩的支持的格式和限制](optimizer-notes.md#compaction-notes)。

**Topics**
+ [启用压缩优化器](enable-compaction.md)
+ [禁用压缩优化器](disable-compaction.md)