本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
最佳化處理 Iceberg 資料表
AWS Glue 支援多個資料表最佳化選項,以增強 AWS 分析引擎和 ETL 任務所使用的 Apache Iceberg 資料表管理和效能。這些最佳化工具提供高效率的儲存使用率、改善的查詢效能,以及有效的資料管理。有三種類型的資料表最佳化工具可用於 AWS Glue:
壓縮 – 資料壓縮壓縮小型資料檔案,以減少儲存用量並改善讀取效能。資料檔案會合併並重新寫入,以移除過時的資料,並將分段的資料合併成更大、更有效率的檔案。您可以設定壓縮以自動執行。
Binpack 是 Apache Iceberg 中的預設壓縮策略。它將較小的資料檔案合併成較大的檔案,以獲得最佳效能。Compaction 也支援將類似資料叢集在一起的排序和 Z 順序策略。Sort 會根據指定的資料欄整理資料,改善篩選操作的查詢效能。Z 順序會建立排序的資料集,以在同時查詢多個資料欄時增強查詢效能。所有三種壓縮策略 - Bincpak、排序和 Z 順序 - 減少查詢引擎掃描的資料量,進而降低查詢處理成本。
快照保留 – 快照是 Iceberg 資料表的時間戳記版本。快照保留組態可讓客戶強制執行保留快照的時間長度,以及要保留的快照數量。設定快照保留最佳化工具可透過移除較舊、不必要的快照及其相關聯的基礎檔案,協助管理儲存體額外負荷。
孤立檔案刪除 – 孤立檔案是 Iceberg 資料表中繼資料不再參考的檔案。這些檔案可能會隨著時間累積,特別是在資料表刪除或失敗的 ETL 任務等操作之後。啟用孤立檔案刪除 AWS Glue 可讓 定期識別和移除這些不必要的檔案,釋放儲存空間。
您可以使用 AWS Glue 主控台或 AWS Glue API 操作,啟用或停用 Data Catalog 中個別 Iceberg 資料表的壓縮 AWS CLI、快照保留和孤立檔案刪除最佳化工具。
下列影片示範如何在 Data Catalog 中設定 Iceberg 資料表的最佳化工具。