Anpassen des Crawlerverhaltens
Wenn Sie einen AWS-Glue-Crawler konfigurieren, haben Sie mehrere Optionen, um das Verhalten Ihres Crawlers zu definieren.
-
Inkrementelle Crawls – Sie können einen Crawler so konfigurieren, dass er inkrementelle Crawls ausführt, um nur neue Partitionen zum Tabellenschema hinzuzufügen.
-
Partitionsindizes – Ein Crawler erstellt standardmäßig Partitionsindizes für Amazon-S3- und Delta-Lake-Ziele, um eine effiziente Suche nach bestimmten Partitionen zu ermöglichen.
-
Beschleunigen der Crawling-Zeit durch die Verwendung von Amazon-S3-Ereignissen – Sie können einen Crawler so konfigurieren, dass er Amazon-S3-Ereignisse verwendet, um die Änderungen zwischen zwei Crawls zu identifizieren, indem er alle Dateien aus dem Unterordner auflistet, der das Ereignis ausgelöst hat, anstatt das gesamte Amazon-S3- oder Datenkatalogziel aufzulisten.
Behandlung von Schemaänderungen – Sie können verhindern, dass Crawler Änderungen am vorhandenen Schema vornehmen. Sie können mit der AWS Management Console oder der AWS Glue-API konfigurieren, wie Ihr Crawler bestimmte Arten von Änderungen verarbeitet.
-
Ein einziges Schema für mehrere Amazon-S3-Pfade – Sie können einen Crawler so konfigurieren, dass er für jeden S3-Pfad ein einziges Schema erstellt, wenn die Daten kompatibel sind.
Tabellenposition und Partitionierungsebenen – Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen.
Tabellenschwellenwert – Sie können die maximale Anzahl von Tabellen festlegen, die der Crawler erstellen darf, indem Sie eine Tabellenschwelle angeben.
AWS Lake Formation-Anmeldeinformationen – Sie können einen Crawler so konfigurieren, dass er Lake-Formation-Anmeldeinformationen verwendet, um auf einen Amazon-S3-Datenspeicher oder eine Datenkatalogtabelle mit einem zugrunde liegenden Amazon-S3-Speicherort innerhalb desselben AWS-Kontos oder eines anderen AWS-Kontos zuzugreifen.
Weitere Informationen zur Verwendung der AWS Glue-Konsole zum Hinzufügen eines Crawlers finden Sie unter Konfigurieren eines Crawlers.
Themen
Planen inkrementeller Crawls zum Hinzufügen neuer Partitionen
Erstellen eines einzelnen Schemas für jeden Amazon-S3-Include-Pfad
Angeben der maximalen Anzahl von Tabellen, die der Crawler erstellen darf
Konfigurieren eines Crawlers für die Verwendung von Lake-Formation-Anmeldeinformationen
Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen