Optimieren der Abfrageleistung mithilfe von Spaltenstatistiken - AWS Glue

Optimieren der Abfrageleistung mithilfe von Spaltenstatistiken

Sie können Statistiken auf Spaltenebene für AWS Glue Data Catalog-Tabellen in Datenformaten wie Parquet, ORC, JSON, ION, CSV und XML berechnen, ohne zusätzliche Datenpipelines einrichten zu müssen. Spaltenstatistiken helfen Ihnen dabei, Datenprofile zu verstehen, indem sie Einblicke in die Werte innerhalb einer Spalte gewinnen.

Der Datenkatalog unterstützt die Generierung von Statistiken für Spaltenwerte wie Minimalwert, Maximalwert, Gesamt-Nullwerte, Gesamtzahl unterschiedlicher Werte, durchschnittliche Länge von Werten und Gesamtzahl des Vorkommens von wahren Werten. AWS-Analyseservices wie Amazon Redshift und Amazon Athena können diese Spaltenstatistiken verwenden, um Abfrageausführungspläne zu generieren und den optimalen Ablauf auszuwählen, der die Abfrageleistung verbessert.

Es gibt drei Szenarien für die Generierung von Spaltenstatistiken:

Automatisch

AWS Glue unterstützt die automatische Generierung von Spaltenstatistiken auf Katalogebene, sodass automatisch Statistiken für neue Tabellen im AWS Glue Data Catalog generiert werden können.

Geplant

AWS Glue unterstützt die Planung der Generierung von Spaltenstatistiken, sodass diese automatisch nach einem wiederkehrenden Zeitplan ausgeführt werden kann.

Bei der planmäßigen Statistikberechnung aktualisiert die Spaltenstatistikaufgabe die Gesamtstatistiken auf Tabellenebene, wie z. B. Minimum, Maximum und Durchschnitt, mit den neuen Statistiken und liefert den Abfrage-Engines genaue und aktuelle Statistiken zur Optimierung der Abfrageausführung.

On-Demand

Verwenden Sie diese Option, um bei Bedarf Spaltenstatistiken zu generieren. Dies ist nützlich für Ad-hoc-Analysen oder wenn Statistiken sofort berechnet werden müssen.

Sie können die Ausführung der Aufgabe zur Generierung von Spaltenstatistiken über die AWS Glue-Konsole, AWS CLI und AWS Glue-API-Operationen konfigurieren. Wenn Sie den Prozess beginnen, startet AWS Glue einen Spark-Auftrag im Hintergrund und die AWS Glue-Tabellenmetadaten im Datenkatalog werden aktualisiert. Sie können die Spaltenstatistiken mithilfe der AWS Glue-Konsole oder AWS CLI ansehen oder indem Sie die API-Operation GetColumnStatisticsForTable aufrufen.

Anmerkung

Wenn Sie Lake-Formation-Berechtigungen verwenden, um den Zugriff auf die Tabelle zu steuern, erfordert die von der Aufgabe für Spaltenstatistiken übernommene Rolle vollständigen Tabellenzugriff, um Statistiken zu generieren.

Das folgende Video veranschaulicht, wie Sie die Abfrageleistung mithilfe von Spaltenstatistiken verbessern.