最佳化 Iceberg 資料表
AWS Glue 支援多個資料表最佳化選項,以提高 AWS 分析引擎和 ETL 任務所使用的 Apache Iceberg 資料表的管理和效能。這些最佳化工具可提供高效儲存使用率、改善的查詢效能以及有效的資料管理。在 AWS Glue 中有三種類型的資料表最佳化工具可供使用:
壓縮 – 資料壓縮會壓縮小型資料檔案,以減少儲存用量並提高讀取效能。合併和重寫資料檔案,以移除過時的資料,並將分段資料合併為更大、更有效的檔案。可以設定壓縮以自動執行。
Binpack 是 Apache Iceberg 中的預設壓縮策略。其會將較小的資料檔案合併為較大的檔案,以獲得最佳效能。壓縮也支援將類似資料叢集在一起的 sort 和 Z order 策略。sort 會根據指定的資料欄整理資料,從而提高篩選操作的查詢效能。Z-order 會建立已排序的資料集,在同時查詢多個資料欄時可提高查詢效能。所有三種壓縮策略 - bincpak, sort, and Z-order - 可減少查詢引擎掃描的資料量,進而降低查詢處理成本。
快照保留 – 快照是 Iceberg 資料表的時間戳記版本。快照保留組態可讓客戶強制執行保留快照的時間長度,以及要保留的快照數量。設定快照保留最佳化工具可透過移除較舊、不必要的快照及其相關聯的基礎檔案,協助管理儲存體負荷。
孤立檔案刪除 – 孤立檔案是 Iceberg 資料表中繼資料不再參考的檔案。這些檔案可能會隨著時間累積,特別是在資料表刪除或 ETL 任務失敗等操作之後。啟用孤立檔案刪除可讓 AWS Glue 定期識別和移除這些不必要的檔案,以釋放儲存空間。
可透過 Lake Formation 主控台並使用 AWS Glue UpdateCatalog API 操作來提供型錄層級最佳化組態。可以使用 AWS Glue 主控台、AWS CLI 或 AWS Glue API 操作,啟用或停用 Data Catalog 中單個 Iceberg 資料表的壓縮、快照保留和孤立檔案刪除最佳化工具。
下列影片示範如何在 Data Catalog 中設定 Iceberg 資料表的最佳化工具。