

# 自动列统计数据生成
<a name="auto-column-stats-generation"></a>

自动生成列统计数据让您能够安排并自动计算 AWS Glue Data Catalog中新表的统计数据。启用自动统计数据生成后，Data Catalog 会发现具有特定数据格式（如 Parquet、JSON、CSV、XML、ORC、ION 和 Apache Iceberg）的新表及其各自的存储桶路径。通过一次性目录配置，Data Catalog 会为这些表生成统计数据。

 数据湖管理员可以通过在 Lake Formation 控制台中选择默认目录并使用`Optimization configuration`选项启用表统计数据来配置统计数据生成。当您在 Data Catalog 中创建新表或更新现有表时，Data Catalog 会每周收集 Apache Iceberg 表的不同值 (NDV) 数量以及其他统计数据（例如，其他受支持文件格式的空值数、最大值、最小值和平均长度）。

如果您已经在表级别配置了统计数据生成，或者您之前删除了表的统计数据生成设置，则这些特定于表的设置优先于自动列统计数据生成的默认目录设置。

 自动统计数据生成任务会分析表中 50% 的记录来计算统计数据。自动生成列统计数据可确保 Data Catalog 维护每周指标，Amazon Athena 和 Amazon Redshift Spectrum 等查询引擎可以使用这些统计数据来提高查询性能并可能节省成本。它允许使用 AWS Glue API 或控制台安排统计数据生成，从而提供无需人工干预的自动化流程。

**Topics**
+ [启用目录级别自动统计数据生成](enable-auto-column-stats-generation.md)
+ [查看自动表级设置](view-auto-column-stats-settings.md)
+ [禁用目录级别列统计数据生成](disable-auto-column-stats-generation.md)