本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自動產生資料欄統計資料
自動產生資料欄統計資料可讓您排程和自動計算 AWS Glue Data Catalog 中新資料表的統計資料。在您啟用自動產生統計資料時,Data Catalog 會探索具有特定資料格式 (例如 Parquet、JSON、CSV、XML、ORC、ION 和 Apache Iceberg) 的新資料表,及其個別儲存貯體路徑。使用一次性型錄組態,Data Catalog 會產生這些資料表的統計資料。
資料湖管理員可以在 Lake Formation 主控台中選取預設型錄,並使用 Optimization configuration 選項啟用資料表統計資料,以設定統計資料產生。當您在 Data Catalog 中建立新資料表或更新現有資料表時,Data Catalog 會每週收集 Apache Iceberg 資料表的不同值 (NDV) 數目,以及其他統計資料,例如其他支援檔案格式的 null、最大值、最小值和平均長度。
如果您已在資料表層級設定統計資料產生,或先前已刪除資料表的統計資料產生設定,則這些資料表特定設定優先於自動產生資料欄統計資料的預設型錄設定。
自動產生統計資料任務會分析資料表中 50% 的記錄,來計算統計資料。自動產生資料欄統計資料可確保 Data Catalog 維護每週指標,以供 Amazon Athena 和 Amazon Redshift Spectrum 等查詢引擎使用,以提高查詢效能並節省潛在成本。其允許使用 AWS Glue API 或主控台排程統計資料產生,提供無需手動介入的自動化程序。