Anpassen des Crawlerverhaltens - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anpassen des Crawlerverhaltens

Wenn Sie einen AWS-Glue-Crawler konfigurieren, haben Sie mehrere Optionen, um das Verhalten Ihres Crawlers zu definieren.

  • Inkrementelle Crawls – Sie können einen Crawler so konfigurieren, dass er inkrementelle Crawls ausführt, um nur neue Partitionen zum Tabellenschema hinzuzufügen.

  • Partitionsindizes – Ein Crawler erstellt standardmäßig Partitionsindizes für Amazon-S3- und Delta-Lake-Ziele, um eine effiziente Suche nach bestimmten Partitionen zu ermöglichen.

  • Beschleunigen der Crawling-Zeit durch die Verwendung von Amazon-S3-Ereignissen – Sie können einen Crawler so konfigurieren, dass er Amazon-S3-Ereignisse verwendet, um die Änderungen zwischen zwei Crawls zu identifizieren, indem er alle Dateien aus dem Unterordner auflistet, der das Ereignis ausgelöst hat, anstatt das gesamte Amazon-S3- oder Datenkatalogziel aufzulisten.

  • Behandlung von Schemaänderungen – Sie können verhindern, dass Crawler Änderungen am vorhandenen Schema vornehmen. Sie können mit der AWS-Managementkonsole oder der AWS Glue-API konfigurieren, wie Ihr Crawler bestimmte Arten von Änderungen verarbeitet.

  • Ein einziges Schema für mehrere Amazon-S3-Pfade – Sie können einen Crawler so konfigurieren, dass er für jeden S3-Pfad ein einziges Schema erstellt, wenn die Daten kompatibel sind.

  • Tabellenposition und Partitionierungsebenen – Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen.

  • Tabellenschwellenwert – Sie können die maximale Anzahl von Tabellen festlegen, die der Crawler erstellen darf, indem Sie eine Tabellenschwelle angeben.

  • AWS Lake Formation-Anmeldeinformationen – Sie können einen Crawler so konfigurieren, dass er Lake-Formation-Anmeldeinformationen verwendet, um auf einen Amazon-S3-Datenspeicher oder eine Datenkatalogtabelle mit einem zugrunde liegenden Amazon-S3-Speicherort innerhalb desselben AWS-Kontos oder eines anderen AWS-Kontos zuzugreifen.

Weitere Informationen zur Verwendung der AWS Glue-Konsole zum Hinzufügen eines Crawlers finden Sie unter Konfigurieren eines Crawlers.