Löschen verwaister Dateien
Mit AWS Glue Data Catalog können Sie verwaiste Dateien aus Ihren Iceberg-Tabellen entfernen. Verwaiste Dateien sind nicht referenzierte Dateien, die in Ihrer Amazon-S3-Datenquelle unter dem angegebenen Tabellenort vorhanden sind, nicht von den Iceberg-Tabellenmetadaten verfolgt werden und älter als die von Ihnen konfigurierte Altersgrenze sind. Diese verwaisten Dateien können sich im Laufe der Zeit aufgrund von Fehlern bei Vorgängen wie Komprimierung, Partitionslöschungen oder Tabellenumschreibungen ansammeln und unnötigen Speicherplatz beanspruchen.
Der Optimierer für das Löschen verwaister Dateien in AWS Glue scannt die Tabellenmetadaten und die eigentlichen Datendateien, identifiziert die verwaisten Dateien und löscht sie, um Speicherplatz zurückzugewinnen. Der Optimierer entfernt nur Dateien, die nach dem Erstellungsdatum des Optimierers erstellt wurden und auch die konfigurierten Löschkriterien erfüllen. Dateien, die vor oder am Erstellungsdatum des Optimierers erstellt wurden, werden niemals gelöscht.
Logik zum Löschen verwaister Dateien
Datumsprüfung – vergleicht das Erstellungsdatum der Datei mit dem Erstellungsdatum des Optimierers. Wenn die Datei mindestens so alt ist wie der Optimierer, wird die Datei übersprungen.
Konfigurationsprüfung des Optimierers – wenn die Datei neuer als der Optimierers ist, wird die Datei anhand der konfigurierten Altersbeschränkung bewertet. Der Optimierer löscht die Datei, wenn sie den Löschkriterien entspricht. Die Datei wird übersprungen, wenn sie den Kriterien nicht entspricht.
Sie können das Löschen verwaister Dateien initiieren, indem Sie im Datenkatalog einen Tabellenoptimierer für das Löschen verwaister Dateien erstellen.
Wichtig
Beim Löschen verwaister Dateien werden standardmäßig Dateien im gesamten Speicherort Ihrer AWS Glue-Tabelle ausgewertet. Sie können zwar mithilfe eines API-Parameters ein Unterpräfix konfigurieren, um den Umfang der Auswertung einzuschränken, müssen jedoch sicherstellen, dass Ihr Tabellenspeicherort keine Dateien aus anderen Datenquellen oder Tabellen enthält. Wenn sich Ihr Tabellenspeicherort mit anderen Datenquellen überschneidet, identifiziert und löscht der Dienst möglicherweise nicht zugehörige Dateien als verwaiste Dateien.