Optimieren der Abfrageleistung für Iceberg-Tabellen - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimieren der Abfrageleistung für Iceberg-Tabellen

Apache Iceberg ist ein leistungsstarkes offenes Tabellenformat für riesige Analytikdatensätze. AWS Glue unterstützt die Berechnung und Aktualisierung der Anzahl eindeutiger Werte (NDVs) für jede Spalte in Iceberg-Tabellen Diese Statistiken können Dateningenieuren und Wissenschaftlern, die mit großen Datensätzen arbeiten, eine bessere Abfrageoptimierung, Datenverwaltung und Leistungseffizienz ermöglichen.

AWS Glue schätzt die Anzahl der eindeutigen Werte in jeder Spalte der Iceberg-Tabelle und speichert sie in Puffin-Dateien in Amazon S3, die mit Iceberg-Tabellen-Snapshots verknüpft sind. Puffin ist ein Iceberg-Dateiformat, das für die Speicherung von Metadaten wie Indizes, Statistiken und Skizzen entwickelt wurde. Die Speicherung von Skizzen in Puffin-Dateien, die mit Snapshots verknüpft sind, gewährleistet die Transaktionskonsistenz und Aktualität der NDV-Statistiken.

Sie können die Ausführung der Aufgabe zur Erstellung von Spaltenstatistiken über die AWS Glue-Konsole oder AWS CLI konfigurieren. Wenn Sie den Prozess starten, startet AWS Glue einen Spark-Auftrag im Hintergrund und die AWS Glue-Tabellenmetadaten in Data Catalog werden aktualisiert. Sie können die Spaltenstatistiken mithilfe der AWS Glue-Konsole oder AWS CLI ansehen oder indem Sie die API-Operation GetColumnStatisticsForTable aufrufen.

Anmerkung

Wenn Sie AWS Lake Formation-Berechtigungen verwenden, um den Zugriff auf die Tabelle zu steuern, erfordert die von der Aufgabe für Spaltenstatistiken übernommene Rolle vollständigen Tabellenzugriff, um Statistiken zu generieren.

Weitere Informationen finden Sie auch unter