使用資料欄統計資料最佳化查詢效能
您可以計算 Parquet、ORC、JSON、ION、CSV 及 XML 等資料格式之 AWS Glue Data Catalog 資料表的資料欄層級統計資料,無須設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。
Data Catalog 支援產生資料欄值的統計資料,例如最小值、最大值、總 Null 值、總相異值、值平均長度及 true 值出現總數。AWS 分析服務 (例如,Amazon Redshift) 和 Amazon Athena 可以使用這些資料欄統計資料產生查詢執行計劃,並選擇改善查詢效能的最佳計畫。
產生資料欄統計資料有以下三種情況:
- 自動
AWS Glue 支援在型錄層級自動產生資料欄統計資料,以便在 AWS Glue Data Catalog 中為新資料表自動產生統計資料。
- 已排程
AWS Glue 支援排程資料欄統計資料產生,因此可以依週期性排程自動執行。
透過排程統計資料計算,資料欄統計資料任務會更新整體資料表層級統計資料 (例如新統計資料的最小值、最大值和平均值),為查詢引擎提供準確且最新統計資料,以最佳化查詢執行。
- 隨需
使用此選項可在需要時隨需產生資料欄統計資料。這對於臨機操作分析或在需要立即計算統計資料時非常有用。
您可以設定使用 AWS Glue 主控台、AWS CLI 和 AWS Glue API 操作執行資料欄統計資料產生任務。當您啟動程序時,AWS Glue 會在背景啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台或 AWS CLI,或透過呼叫 GetColumnStatisticsForTable API 操作,來檢視資料欄統計資料。
注意
如果您正在使用 Lake Formation 權限控制資料表的存取權,則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權,才可產生統計資料。
下列影片示範如何使用資料欄統計資料來增強查詢效能。