Tabellenoptimierer auf Katalogebene - AWS Glue

Tabellenoptimierer auf Katalogebene

Mit einer einmaligen Katalogkonfiguration können Sie automatische Optimierungsprogramme wie Verdichtung, Aufbewahrung von Snapshots und Löschen verwaister Dateien für alle neuen und aktualisierten Apache-Iceberg-Tabellen im AWS Glue Data Catalog einrichten. Mit Optimiererkonfigurationen auf Katalogebene können Sie einheitliche Optimierereinstellungen auf alle Tabellen innerhalb eines Katalogs anwenden, sodass Sie die Optimierer nicht mehr für jede Tabelle einzeln konfigurieren müssen.

Data–Lake-Administratoren können die Tabellenoptimierer konfigurieren, indem sie den Standardkatalog in der Lake-Formation-Konsole auswählen und die Optimierer über die Option Table optimization aktivieren. Wenn Sie neue Tabellen erstellen oder bestehende Tabellen im Datenkatalog aktualisieren, führt der Datenkatalog automatisch die Tabellenoptimierungen aus, um den Betriebsaufwand zu verringern.

Wenn Sie die Optimierung auf Tabellenebene konfiguriert haben oder wenn Sie zuvor die Tabellenoptimierungseinstellungen für eine Tabelle gelöscht haben, haben diese tabellenspezifischen Einstellungen Vorrang vor den Standardkatalogeinstellungen für die Tabellenoptimierung. Ist ein Konfigurationsparameter weder auf Tabellen- noch auf Katalogebene definiert, wird der Wert der Iceberg-Tabelleneigenschaft angewendet. Diese Einstellung gilt für die Optimierer für die Aufbewahrung von Snapshots und die Löschung verwaister Dateien.

Beachten Sie bei der Aktivierung von Optimierern auf Katalogebene Folgendes:

  • Wenn Sie bei der Erstellung des Katalogs Optimierungseinstellungen konfigurieren und anschließend die Optimierungen über eine Anforderung zum Aktualisieren des Katalogs deaktivieren, wird der Vorgang auf alle Tabellen innerhalb des Katalogs angewendet.

  • Wenn Sie bereits Optimierer für eine bestimmte Tabelle konfiguriert haben, hat die Deaktivierung auf Katalogebene keine Auswirkungen auf diese Tabelle.

  • Wenn Sie Optimierer auf Katalogebene deaktivieren, behalten Tabellen mit bestehenden Optimiererkonfigurationen ihre spezifischen Einstellungen bei und bleiben von der Änderung auf Katalogebene unberührt. Tabellen ohne eigene Optimierungskonfigurationen übernehmen jedoch den deaktivierten Status aus der Katalogebene.

  • Da die Optimierer für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien zeitplanbasiert sein können, führen Aktualisierungen zu einer zufälligen Verzögerung beim Start ihres Zeitplans. Dadurch starten die einzelnen Optimierer zu leicht unterschiedlichen Zeitpunkten, wodurch die Last verteilt und die Wahrscheinlichkeit einer Überschreitung der Servicegrenzen verringert wird.