

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用資料欄統計資料最佳化查詢效能
<a name="column-statistics"></a>

您可以計算 Parquet、ORC、JSON、ION、CSV 和 XML 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料，而無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值，了解資料設定檔。

Data Catalog 支援產生資料欄值的統計資料，例如最小值、最大值、總 null 值、總相異值、值的平均長度和真值的總出現次數。 AWS 分析服務，例如 Amazon Redshift，可以使用 Amazon Athena 這些資料欄統計資料來產生查詢執行計畫，並選擇改善查詢效能的最佳計畫。

產生資料欄統計資料有以下三種情況：

 **自動**   
AWS Glue 支援在目錄層級自動產生資料欄統計資料，以便自動產生 中新資料表的統計資料 AWS Glue Data Catalog。

**已排程**  
AWS Glue 支援排程資料欄統計資料產生，以便可以按照週期性排程自動執行。  
透過排程統計資料計算，資料欄統計資料任務會更新整體資料表層級統計資料 (例如新統計資料的最小值、最大值和平均值)，為查詢引擎提供準確且最新統計資料，以最佳化查詢執行。

**隨需**  
使用此選項可在需要時隨需產生資料欄統計資料。這對於臨機操作分析或在需要立即計算統計資料時非常有用。

您可以設定 使用 AWS Glue 主控台 AWS CLI和 AWS Glue API 操作來執行資料欄統計資料產生任務。當您啟動程序時， 會在背景 AWS Glue 啟動 Spark 任務，並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或 或呼叫 [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html) API 操作來檢視資料欄統計資料。

**注意**  
如果您正在使用 Lake Formation 權限控制資料表的存取權，則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權，才可產生統計資料。

 下列影片示範如何使用資料欄統計資料來增強查詢效能。

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/zUHEXJdHUxs?si=HjyhpoALR6RXJz2i/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/zUHEXJdHUxs?si=HjyhpoALR6RXJz2i)


**Topics**
+ [產生資料欄統計資料的先決條件](column-stats-prereqs.md)
+ [自動產生資料欄統計資料](auto-column-stats-generation.md)
+ [根據排程產生資料欄統計資料](generate-column-stats.md)
+ [隨需產生資料欄統計資料](column-stats-on-demand.md)
+ [檢視資料欄統計資料](view-column-stats.md)
+ [檢視資料欄統計資料任務執行](view-stats-run.md)
+ [停止資料欄統計資料任務執行](stop-stats-run.md)
+ [刪除資料欄統計資料](delete-column-stats.md)
+ [考量和限制](column-stats-notes.md)