最佳化 Iceberg 資料表的查詢效能 - AWS Glue

最佳化 Iceberg 資料表的查詢效能

Apache Iceberg 是適用於大型分析資料集的高效能開放資料表格式。AWS Glue 支援計算和更新 Iceberg 資料表中每個資料欄的不同值 (NDV) 數目。這些統計資料可為使用大規模資料集的資料工程師和科學家提供更好的查詢最佳化、資料管理和效能效率。

AWS Glue 可估計 Iceberg 資料表每一欄中的不同值數目,並將其存放在與 Iceberg 資料表快照相關聯的 Amazon S3 上的 Puffin 檔案中。Puffin 是一種 Iceberg 檔案格式,旨在存放諸如索引、統計資料和草圖等中繼資料。將草圖存放在與快照關聯的 Puffin 檔案中,可確保 NDV 統計資料的交易一致性和新鮮度。

您可以設定使用 AWS Glue 主控台或 AWS CLI 執行資料欄統計資料產生任務。當您啟動程序時,AWS Glue 會在背景啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台或 AWS CLI,或透過呼叫 GetColumnStatisticsForTable API 操作,來檢視資料欄統計資料。

注意

如果您正在使用 AWS Lake Formation 權限控制資料表的存取權,則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權,才可產生統計資料。

另請參閱