壓縮最佳化 - AWS Glue

壓縮最佳化

使用開放資料表格式 (例如,Apache Iceberg) 的 Amazon S3 資料湖會以 S3 物件形式儲存資料。在資料湖資料表中擁有數千個小型 Amazon S3 物件會增加中繼資料負荷,並影響讀取效能。AWS Glue Data Catalog 為 Iceberg 資料表提供受管壓縮,將小型物件壓縮成較大的物件,以便透過 AWS 分析服務 (如 Amazon Athena 和 Amazon EMR) 及 AWS Glue ETL 任務獲得更好的讀取效能。Data Catalog 在不干擾並行查詢的情況下執行壓縮,並僅支援 Parquet 格式資料表的壓縮。

該資料表最佳化工具會持續監控資料表分區區,並在檔案數目和檔案大小超過閾值時啟動壓縮程序。

在 Data Catalog 中,壓縮程序會在資料表或其任何分區具有超過 100 個檔案時啟動。每個檔案都必須小於目標檔案大小的 75%。目標檔案大小由 write.target-file-size-bytes 資料表屬性定義,如果未明確設定,則預設為 512 MB。

如需限制的詳細資訊,請參閱受管資料壓縮支援的格式和限制