自動產生資料欄統計資料

自動產生資料欄統計資料可讓您排程和自動計算 AWS Glue Data Catalog中新資料表的統計資料。在您啟用自動產生統計資料時，Data Catalog 會探索具有特定資料格式 (例如 Parquet、JSON、CSV、XML、ORC、ION 和 Apache Iceberg) 的新資料表，及其個別儲存貯體路徑。使用一次性目錄組態，Data Catalog 會產生這些資料表的統計資料。

資料湖管理員可以在 Lake Formation 主控台中選取預設目錄，並使用 Optimization configuration 選項啟用資料表統計資料，以設定統計資料產生。當您在 Data Catalog 中建立新資料表或更新現有資料表時，Data Catalog 會每週收集 Apache Iceberg 資料表的不同值 (NDV) 數目，以及其他統計資料，例如其他支援檔案格式的 null、最大值、最小值和平均長度。

如果您已在資料表層級設定統計資料產生，或先前已刪除資料表的統計資料產生設定，則這些資料表特定設定優先於自動產生資料欄統計資料的預設目錄設定。

自動產生統計資料任務會分析資料表中 50% 的記錄，來計算統計資料。自動產生資料欄統計資料可確保 Data Catalog 維護每週指標，以供 Amazon Athena 和 Amazon Redshift Spectrum 等查詢引擎使用，以提高查詢效能並節省潛在成本。它允許使用 AWS Glue APIs或主控台排程統計資料產生，提供自動化程序，無需手動介入。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

先決條件

啟用目錄層級自動產生統計資料