Planen inkrementeller Crawls zum Hinzufügen neuer Partitionen - AWS Glue

Planen inkrementeller Crawls zum Hinzufügen neuer Partitionen

Sie können eine AWS-Glue-Crawler-Ausführung inkrementeller Crawls konfigurieren, um dem Tabellenschema nur neue Partitionen hinzuzufügen. Wenn der Crawler zum ersten Mal ausgeführt wird, führt er einen vollständigen Crawl durch, um die gesamte Datenquelle zu verarbeiten und das vollständige Schema sowie alle vorhandenen Partitionen in AWS Glue Data Catalog aufzuzeichnen.

Nach dem ersten vollständigen Crawl werden nur noch inkrementelle Crawls durchgeführt, bei denen der Crawler nur die neuen Partitionen identifiziert und hinzufügt, die seit dem letzten Crawl hinzugefügt wurden. Dieser Ansatz führt zu niedrigeren Crawl-Zeiten, da der Crawler nicht mehr bei jeder Ausführung die gesamte Datenquelle verarbeiten muss, sondern sich nur noch auf die neuen Partitionen konzentriert.

Anmerkung

Änderungen oder Löschungen vorhandener Partitionen werden von inkrementellen Crawls nicht erkannt. Diese Konfiguration eignet sich am besten für Datenquellen mit einem stabilen Schema. Wenn eine einmalige größere Schemaänderung auftritt, empfiehlt es sich, den Crawler vorübergehend so einzustellen, dass er einen vollständigen Crawl durchführt, um das neue Schema genau zu erfassen, und dann wieder in den inkrementellen Crawling-Modus zurückzukehren.

Das folgende Diagramm zeigt, dass der Crawler bei aktivierter Einstellung für inkrementelles Crawling nur den neu hinzugefügten Ordner „month=March“ erkennt und dem Katalog hinzufügt.

Das folgende Diagramm zeigt, dass Dateien für den Monat März hinzugefügt wurden.

Gehen Sie wie folgt vor, um Ihren Crawler so zu aktualisieren, dass er inkrementelle Crawls durchführt:

AWS Management Console
  1. Melden Sie sich bei der AWS Management Console an und öffnen Sie die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/.

  2. Wählen Sie im Datenkatalog die Option Crawler aus.

  3. Wählen Sie einen Crawler aus, den Sie für das inkrementelle Crawling einrichten möchten.

  4. Wählen Sie Bearbeiten aus.

  5. Wählen Sie Schritt 2 aus. Wählen Sie Datenquellen und Klassifikatoren.

  6. Wählen Sie die Datenquelle aus, für die Sie inkrementelle Crawls durchführen möchten.

  7. Wählen Sie Bearbeiten aus.

  8. Wählen Sie unter Nachfolgende Crawl-Ausführungen die Option Nur neue Unterordner crawlen aus.

  9. Wählen Sie Aktualisieren.

Informationen zum Erstellen eines Zeitplans für einen Crawler finden Sie unter Planen eines Crawlers.

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Hinweise und Einschränkungen

Wenn diese Option aktiviert ist, können Sie die Amazon-S3-Zieldatenspeicher beim Bearbeiten des Crawlers nicht ändern. Diese Option wirkt sich auf bestimmte Crawler-Konfigurationseinstellungen aus. Wenn diese Option aktiviert ist, erzwingt sie das Aktualisierungs- und Löschverhalten des Crawlers für LOG. Dies bedeutet, dass:

  • Wenn Objekte entdeckt werden, bei denen Schemata nicht kompatibel sind, fügt der Crawler die Objekte nicht zum Datenkatalog hinzu und fügt dieses Detail als Protokoll in CloudWatch Logs hinzu.

  • Gelöschte Objekte werden im Datenkatalog nicht aktualisiert.