最佳化 Iceberg 資料表的查詢效能 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳化 Iceberg 資料表的查詢效能

Apache Iceberg 是適用於大型分析資料集的高效能開放資料表格式。 AWS Glue 支援計算和更新 Iceberg 資料表中每個資料欄的不同值 (NDVs數目。這些統計資料可以為使用大規模資料集的資料工程師和科學家提供更好的查詢最佳化、資料管理和效能效率。

AWS Glue 估計 Iceberg 資料表每一欄中的不同值數目,並將其存放在與 Iceberg 資料表快照相關聯的 Amazon S3 上的 Puffin 檔案中。Puffin 是一種 Iceberg 檔案格式,旨在存放索引、統計資料和草圖等中繼資料。將草圖存放在與快照綁定的 Puffin 檔案中,可確保 NDV 統計資料的交易一致性和新鮮度。

您可以將 設定為使用 AWS Glue 主控台或 執行資料欄統計資料產生任務 AWS CLI。當您啟動程序時, 會在背景 AWS Glue 啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或 或呼叫 GetColumnStatisticsForTable API 操作來檢視資料欄統計資料。

注意

如果您使用 AWS Lake Formation 許可來控制對資料表的存取,資料欄統計資料任務擔任的角色需要完整資料表存取權才能產生統計資料。

另請參閱