最佳化 Iceberg 資料表的查詢效能

Apache Iceberg 是適用於大型分析資料集的高效能開放資料表格式。 AWS Glue 支援計算和更新 Iceberg 資料表中每個資料欄的不同值 (NDV) 數目。這些統計資料可為使用大規模資料集的資料工程師和科學家提供更好的查詢最佳化、資料管理和效能效率。

AWS Glue 估計 Iceberg 資料表每一欄中的不同值數目，並將其存放在與 Iceberg 資料表快照相關聯的 Amazon S3 上的 Puffin 檔案中。Puffin 是一種 Iceberg 檔案格式，旨在存放諸如索引、統計資料和草圖等中繼資料。將草圖存放在與快照關聯的 Puffin 檔案中，可確保 NDV 統計資料的交易一致性和新鮮度。

您可以將設定為使用 AWS Glue 主控台或執行資料欄統計資料產生任務 AWS CLI。當您啟動程序時，會在背景 AWS Glue 啟動 Spark 任務，並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或或呼叫 GetColumnStatisticsForTable API 操作來檢視資料欄統計資料。

注意

如果您使用 AWS Lake Formation 許可來控制對資料表的存取，資料欄統計資料任務擔任的角色需要完整資料表存取權才能產生統計資料。

主題

另請參閱

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

資料表最佳化工具的支援區域

先決條件