Tabellenoptimierer auf Katalogebene - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Tabellenoptimierer auf Katalogebene

Mit einer einmaligen Katalogkonfiguration können Sie automatische Optimierer wie Komprimierung, Aufbewahrung von Snapshots und Löschen verwaister Dateien für alle neuen und aktualisierten Apache Iceberg-Tabellen in der einrichten. AWS Glue Data Catalog Optimizer-Konfigurationen auf Katalogebene ermöglichen es Ihnen, konsistente Optimizer-Einstellungen auf alle Tabellen innerhalb eines Katalogs anzuwenden, sodass Sie Optimizer nicht für jede Tabelle einzeln konfigurieren müssen.

Data Lake-Administratoren können die Tabellenoptimierer konfigurieren, indem sie den Standardkatalog in der Lake Formation Formation-Konsole auswählen und Optimizer mithilfe der Option aktivieren. Table optimization Wenn Sie neue Tabellen erstellen oder bestehende Tabellen im Datenkatalog aktualisieren, führt der Datenkatalog automatisch die Tabellenoptimierungen aus, um den Betriebsaufwand zu verringern.

Wenn Sie die Optimierung auf Tabellenebene konfiguriert oder die Tabellenoptimierungseinstellungen für eine Tabelle zuvor gelöscht haben, haben diese tabellenspezifischen Einstellungen Vorrang vor den Standardkatalogeinstellungen für die Tabellenoptimierung. Wenn ein Konfigurationsparameter weder auf Tabellen- noch auf Katalogebene definiert ist, wird der Eigenschaftswert der Iceberg-Tabelle angewendet. Diese Einstellung gilt für den Optimizer für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien.

Beachten Sie bei der Aktivierung von Optimierern auf Katalogebene Folgendes:

  • Wenn Sie die Optimierungseinstellungen bei der Katalogerstellung konfigurieren und anschließend die Optimierungen über eine Anfrage zur Aktualisierung des Katalogs deaktivieren, durchläuft der Vorgang kaskadierend alle Tabellen innerhalb des Katalogs.

  • Wenn Sie bereits Optimizer für eine bestimmte Tabelle konfiguriert haben, wirkt sich der Deaktivierungsvorgang auf Katalogebene nicht auf diese Tabelle aus.

  • Wenn Sie Optimizer auf Katalogebene deaktivieren, behalten Tabellen mit vorhandenen Optimizer-Konfigurationen ihre spezifischen Einstellungen bei und bleiben von der Änderung auf Katalogebene unberührt. Tabellen ohne eigene Optimizer-Konfigurationen erben jedoch den deaktivierten Status von der Katalogebene.

  • Da die Optimierer für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien zeitplanbasiert sein können, kommt es bei Aktualisierungen zu einer zufälligen Verzögerung beim Start des Zeitplans. Dadurch wird jeder Optimierer zu leicht unterschiedlichen Zeiten gestartet, wodurch die Last verteilt wird und die Wahrscheinlichkeit einer Überschreitung der Dienstlimits verringert wird.