Angeben der maximalen Anzahl von Tabellen, die der Crawler erstellen darf - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Angeben der maximalen Anzahl von Tabellen, die der Crawler erstellen darf

Sie können optional die maximale Anzahl von Tabellen angeben, die der Crawler erstellen darf, indem Sie einen TableThreshold über die AWS Glue-Konsole oder AWS CLI angeben. Wenn die vom Crawler während des Crawlings erkannten Tabellen größer als dieser Eingabewert sind, schlägt das Crawling fehl und es werden keine Daten in den Data Catalog geschrieben.

Dieser Parameter ist nützlich, wenn die Tabellen, die vom Crawler erkannt und erstellt werden, viel größer sind als erwartet. Dafür kann es mehrere Gründe geben, wie zum Beispiel:

  • Bei Verwendung eines AWS Glue-Auftrags zum Ausfüllen der Amazon-S3-Speicherorte erhalten Sie möglicherweise leere Dateien auf derselben Ebene wie ein Ordner. Wenn Sie in solchen Fällen einen Crawler an diesem Amazon-S3-Speicherort ausführen, erstellt der Crawler aufgrund von Dateien und Ordnern, die auf derselben Ebene vorhanden sind, mehrere Tabellen.

  • Wenn Sie "TableGroupingPolicy": "CombineCompatibleSchemas" nicht konfigurieren, erhalten Sie möglicherweise mehr Tabellen als erwartet.

Sie geben den TableThreshold als Ganzzahl größer 0 an. Dieser Wert wird pro Crawler konfiguriert. Das heißt, für jedes Crawling wird dieser Wert berücksichtigt. Beispiel: Für einen Crawler wurde der TableThreshold-Wert auf 5 gesetzt. Bei jedem Crawling vergleicht AWS Glue die Anzahl der erkannten Tabellen mit diesem Tabellenschwellwert (5) und falls die Anzahl der erkannten Tabellen kleiner als 5 ist, schreibt AWS Glue die Tabellen in den Data Catalog. Ist dies nicht der Fall, schlägt das Crawling fehl und es wird nicht in den Data Catalog geschrieben.

AWS-Managementkonsole
Festlegen von TableThreshold mit der AWS-Managementkonsole:
  1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/.

  2. Legen Sie bei der Konfiguration eines Crawlers unter Ausgabe und Planung den maximalen Tabellenschwellenwert auf die Anzahl der Tabellen fest, die der Crawler generieren darf.

    Der Abschnitt „Ausgabe und Planung“ der AWS-Konsole zeigt den Parameter „Maximaler Tabellenschwellenwert“.
AWS CLI

Festlegen von TableThreshold mit der AWS CLI:

aws glue update-crawler \ --name myCrawler \ --configuration '{"Version": 1.0, "CrawlerOutput": {"Tables": { "TableThreshold": 5 }}}'
API

Festlegen von TableThreshold mit der API:

"{"Version":1.0, "CrawlerOutput": {"Tables":{"AddOrUpdateBehavior":"MergeNewColumns", "TableThreshold":5}}}";

Fehlermeldungen werden protokolliert, um Ihnen zu helfen, Tabellenpfade zu identifizieren und Ihre Daten zu bereinigen. Beispiel: Melden Sie sich bei Ihrem Konto an, wenn der Crawler fehlschlägt, weil die Tabellenanzahl größer als der angegebene Tabellenschwellenwert war:

Table Threshold value = 28, Tables detected - 29

In CloudWatch protokollieren wir alle Tabellenpositionen, die als INFO-Nachricht erkannt wurden. Ein Fehler wird als Grund für den Fehlschlag protokolliert.

ERROR com.amazonaws.services.glue.customerLogs.CustomerLogService - CustomerLogService received CustomerFacingException with message The number of tables detected by crawler: 29 is greater than the table threshold value provided: 28. Failing crawler without writing to Data Catalog. com.amazonaws.services.glue.exceptions.CustomerFacingInternalException: The number of tables detected by crawler: 29 is greater than the table threshold value provided: 28. Failing crawler without writing to Data Catalog.