使用資料欄統計資料最佳化查詢效能 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用資料欄統計資料最佳化查詢效能

您可以計算 Parquet、ORC、JSON、ION、CSV 和 XML 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料,而無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。

Data Catalog 支援產生資料欄值的統計資料,例如最小值、最大值、總 null 值、總相異值、值的平均長度和真值的總出現次數。 AWS 分析服務,例如 Amazon Redshift,可以使用 Amazon Athena 這些資料欄統計資料來產生查詢執行計畫,並選擇改善查詢效能的最佳計畫。

產生資料欄統計資料有以下三種情況:

自動

AWS Glue 支援在目錄層級自動產生資料欄統計資料,以便自動產生 中新資料表的統計資料 AWS Glue Data Catalog。

已排程

AWS Glue 支援排程資料欄統計資料產生,以便可以按照週期性排程自動執行。

透過排程統計資料計算,資料欄統計資料任務會更新整體資料表層級統計資料 (例如新統計資料的最小值、最大值和平均值),為查詢引擎提供準確且最新統計資料,以最佳化查詢執行。

隨需

使用此選項可在需要時隨需產生資料欄統計資料。這對於臨機操作分析或在需要立即計算統計資料時非常有用。

您可以設定 使用 AWS Glue 主控台 AWS CLI和 AWS Glue API 操作來執行資料欄統計資料產生任務。當您啟動程序時, 會在背景 AWS Glue 啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或 或呼叫 GetColumnStatisticsForTable API 操作來檢視資料欄統計資料。

注意

如果您正在使用 Lake Formation 權限控制資料表的存取權,則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權,才可產生統計資料。

下列影片示範如何使用資料欄統計資料來增強查詢效能。