Automatisches Generieren von Spaltenstatistiken - AWS Glue

Automatisches Generieren von Spaltenstatistiken

Die automatische Generierung von Spaltenstatistiken ermöglicht es Ihnen, Statistiken für neue Tabellen in AWS Glue Data Catalog zu planen und automatisch zu berechnen. Wenn Sie die automatische Statistikgenerierung aktivieren, erkennt der Datenkatalog neue Tabellen mit bestimmten Datenformaten wie Parquet, JSON, CSV, XML, ORC, ION und Apache Iceberg sowie deren individuelle Bucket-Pfade. Mit einer einmaligen Katalogkonfiguration generiert der Datenkatalog Statistiken für diese Tabellen.

Data–Lake-Administratoren können die Statistikgenerierung konfigurieren, indem sie den Standardkatalog in der Lake-Formation-Konsole auswählen und die Tabellenstatistik über die Option Optimization configuration aktivieren. Wenn Sie neue Tabellen erstellen oder vorhandene Tabellen im Datenkatalog aktualisieren, erfasst der Datenkatalog wöchentlich die Anzahl der eindeutigen Werte (NDVs) für Apache-Iceberg-Tabellen sowie zusätzliche Statistiken wie die Anzahl der Nullwerte, die maximale, minimale und durchschnittliche Länge für andere unterstützte Dateiformate.

Wenn Sie die Statistikgenerierung auf Tabellenebene konfiguriert haben oder wenn Sie zuvor die Einstellungen für die Statistikgenerierung für eine Tabelle gelöscht haben, haben diese tabellenspezifischen Einstellungen Vorrang vor den Standardkatalogeinstellungen für die automatische Generierung von Spaltenstatistiken.

Die Aufgabe zur automatischen Statistikgenerierung analysiert 50 % der Datensätze in den Tabellen, um Statistiken zu berechnen. Die automatische Generierung von Spaltenstatistiken stellt sicher, dass der Datenkatalog wöchentliche Kennzahlen enthält, die von Abfrage-Engines wie Amazon Athena und Amazon Redshift Spectrum verwendet werden können, um die Abfrageleistung zu verbessern und potenzielle Kosteneinsparungen zu erzielen. Es ermöglicht die Planung der Statistikgenerierung mithilfe von AWS Glue-APIs oder der Konsole und bietet so einen automatisierten Prozess ohne manuelles Eingreifen.