Anpassen des Crawlerverhaltens - AWS Glue

Anpassen des Crawlerverhaltens

Wenn Sie einen AWS-Glue-Crawler konfigurieren, haben Sie mehrere Optionen, um das Verhalten Ihres Crawlers zu definieren.

  • Inkrementelle Crawls – Sie können einen Crawler so konfigurieren, dass er inkrementelle Crawls ausführt, um nur neue Partitionen zum Tabellenschema hinzuzufügen.

  • Partitionsindizes – Ein Crawler erstellt standardmäßig Partitionsindizes für Amazon-S3- und Delta-Lake-Ziele, um eine effiziente Suche nach bestimmten Partitionen zu ermöglichen.

  • Beschleunigen der Crawling-Zeit durch die Verwendung von Amazon-S3-Ereignissen – Sie können einen Crawler so konfigurieren, dass er Amazon-S3-Ereignisse verwendet, um die Änderungen zwischen zwei Crawls zu identifizieren, indem er alle Dateien aus dem Unterordner auflistet, der das Ereignis ausgelöst hat, anstatt das gesamte Amazon-S3- oder Datenkatalogziel aufzulisten.

  • Behandlung von Schemaänderungen – Sie können verhindern, dass Crawler Änderungen am vorhandenen Schema vornehmen. Sie können mit der AWS Management Console oder der AWS Glue-API konfigurieren, wie Ihr Crawler bestimmte Arten von Änderungen verarbeitet.

  • Ein einziges Schema für mehrere Amazon-S3-Pfade – Sie können einen Crawler so konfigurieren, dass er für jeden S3-Pfad ein einziges Schema erstellt, wenn die Daten kompatibel sind.

  • Tabellenposition und Partitionierungsebenen – Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen.

  • Tabellenschwellenwert – Sie können die maximale Anzahl von Tabellen festlegen, die der Crawler erstellen darf, indem Sie eine Tabellenschwelle angeben.

  • AWS Lake Formation-Anmeldeinformationen – Sie können einen Crawler so konfigurieren, dass er Lake-Formation-Anmeldeinformationen verwendet, um auf einen Amazon-S3-Datenspeicher oder eine Datenkatalogtabelle mit einem zugrunde liegenden Amazon-S3-Speicherort innerhalb desselben AWS-Kontos oder eines anderen AWS-Kontos zuzugreifen.

Weitere Informationen zur Verwendung der AWS Glue-Konsole zum Hinzufügen eines Crawlers finden Sie unter Konfigurieren eines Crawlers.