

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Planen inkrementeller Crawls zum Hinzufügen neuer Partitionen
<a name="incremental-crawls"></a>

Sie können die AWS-Glue-Crawler Ausführung inkrementeller Crawls so konfigurieren, dass dem Tabellenschema nur neue Partitionen hinzugefügt werden. Wenn der Crawler zum ersten Mal ausgeführt wird, führt er einen vollständigen Crawl durch, um die gesamte Datenquelle zu verarbeiten und das vollständige Schema sowie alle vorhandenen Partitionen in AWS Glue Data Catalog aufzuzeichnen.

Nach dem ersten vollständigen Crawl werden nur noch inkrementelle Crawls durchgeführt, bei denen der Crawler nur die neuen Partitionen identifiziert und hinzufügt, die seit dem letzten Crawl hinzugefügt wurden. Dieser Ansatz führt zu niedrigeren Crawl-Zeiten, da der Crawler nicht mehr bei jeder Ausführung die gesamte Datenquelle verarbeiten muss, sondern sich nur noch auf die neuen Partitionen konzentriert. 

**Anmerkung**  
Änderungen oder Löschungen vorhandener Partitionen werden von inkrementellen Crawls nicht erkannt. Diese Konfiguration eignet sich am besten für Datenquellen mit einem stabilen Schema. Wenn eine einmalige größere Schemaänderung auftritt, empfiehlt es sich, den Crawler vorübergehend so einzustellen, dass er einen vollständigen Crawl durchführt, um das neue Schema genau zu erfassen, und dann wieder in den inkrementellen Crawling-Modus zurückzukehren. 

Das folgende Diagramm zeigt, dass der Crawler bei aktivierter Einstellung für inkrementelles Crawling nur den neu hinzugefügten Ordner „month=March“ erkennt und dem Katalog hinzufügt.

![\[Das folgende Diagramm zeigt, dass Dateien für den Monat März hinzugefügt wurden.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawlers-s3-folders-new.png)


Gehen Sie wie folgt vor, um Ihren Crawler so zu aktualisieren, dass er inkrementelle Crawls durchführt:

------
#### [ AWS-Managementkonsole ]

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter. [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)

1. Wählen Sie im **Datenkatalog** die Option **Crawler** aus.

1. Wählen Sie einen Crawler aus, den Sie für das inkrementelle Crawling einrichten möchten.

1. Wählen Sie **Bearbeiten** aus.

1. Wählen Sie **Schritt 2 aus. Wählen Sie Datenquellen und Klassifikatoren** aus.

1. Wählen Sie die Datenquelle aus, für die Sie inkrementelle Crawls durchführen möchten. 

1. Wählen Sie **Bearbeiten** aus.

1. Wählen Sie unter **Nachfolgende Crawl-Ausführungen** die Option **Nur neue Unterordner crawlen** aus.

1. Wählen Sie **Aktualisieren** aus.

Informationen zum Erstellen eines Zeitplans für einen Crawler finden Sie unter [Planen eines Crawlers](schedule-crawler.md).

------
#### [ AWS CLI ]

```
aws glue update-crawler \
 --name myCrawler \
 --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \
 --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
```

------

**Hinweise und Einschränkungen**  
Wenn diese Option aktiviert ist, können Sie die Amazon-S3-Zieldatenspeicher beim Bearbeiten des Crawlers nicht ändern. Diese Option wirkt sich auf bestimmte Crawler-Konfigurationseinstellungen aus. Wenn diese Option aktiviert ist, erzwingt sie das Aktualisierungs- und Löschverhalten des Crawlers für `LOG`. Dies bedeutet, dass:
+ Wenn Objekte entdeckt werden, bei denen Schemas nicht kompatibel sind, fügt der Crawler die Objekte nicht dem Datenkatalog hinzu und fügt dieses Detail als Protokoll in Logs hinzu. CloudWatch 
+ Gelöschte Objekte werden im Datenkatalog nicht aktualisiert.