Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Anpassen des Crawlerverhaltens
<a name="crawler-configuration"></a>

Wenn Sie einen konfigurieren AWS-Glue-Crawler, haben Sie mehrere Möglichkeiten, das Verhalten Ihres Crawlers zu definieren.
+ **Inkrementelle Crawls** – Sie können einen Crawler so konfigurieren, dass er inkrementelle Crawls ausführt, um nur neue Partitionen zum Tabellenschema hinzuzufügen. 
+ **Partitionsindizes** – Ein Crawler erstellt standardmäßig Partitionsindizes für Amazon-S3- und Delta-Lake-Ziele, um eine effiziente Suche nach bestimmten Partitionen zu ermöglichen.
+ **Beschleunigen der Crawling-Zeit durch die Verwendung von Amazon-S3-Ereignissen** – Sie können einen Crawler so konfigurieren, dass er Amazon-S3-Ereignisse verwendet, um die Änderungen zwischen zwei Crawls zu identifizieren, indem er alle Dateien aus dem Unterordner auflistet, der das Ereignis ausgelöst hat, anstatt das gesamte Amazon-S3- oder Datenkatalogziel aufzulisten.
+ **Behandlung von Schemaänderungen** – Sie können verhindern, dass Crawler Änderungen am vorhandenen Schema vornehmen. Sie können die AWS-Managementkonsole oder die AWS Glue API verwenden, um zu konfigurieren, wie Ihr Crawler bestimmte Arten von Änderungen verarbeitet. 
+ **Ein einziges Schema für mehrere Amazon-S3-Pfade** – Sie können einen Crawler so konfigurieren, dass er für jeden S3-Pfad ein einziges Schema erstellt, wenn die Daten kompatibel sind.
+ **Tabellenposition und Partitionierungsebenen** – Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen. 
+ **Tabellenschwellenwert** – Sie können die maximale Anzahl von Tabellen festlegen, die der Crawler erstellen darf, indem Sie eine Tabellenschwelle angeben.
+ **AWS Lake Formation Anmeldeinformationen** — Sie können einen Crawler so konfigurieren, dass er Lake Formation Formation-Anmeldeinformationen verwendet, um auf einen Amazon S3 S3-Datenspeicher oder eine Datenkatalogtabelle mit einem zugrunde liegenden Amazon S3 S3-Speicherort innerhalb desselben AWS-Konto oder eines anderen AWS-Konto zuzugreifen. 

 Weitere Informationen zur Verwendung der AWS Glue-Konsole zum Hinzufügen eines Crawlers finden Sie unter [Konfigurieren eines Crawlers](define-crawler.md). 

**Topics**
+ [Planen inkrementeller Crawls zum Hinzufügen neuer Partitionen](incremental-crawls.md)
+ [Generieren von Partitionsindizes](crawler-configure-partition-indexes.md)
+ [Verhindern, dass ein Crawler ein vorhandenes Schema ändert](crawler-schema-changes-prevent.md)
+ [Erstellen eines einzelnen Schemas für jeden Amazon-S3-Include-Pfad](crawler-grouping-policy.md)
+ [Festlegen von Tabellenspeicherort und Partitionierungsebene](crawler-table-level.md)
+ [Angeben der maximalen Anzahl von Tabellen, die der Crawler erstellen darf](crawler-maximum-number-of-tables.md)
+ [Konfigurieren eines Crawlers für die Verwendung von Lake-Formation-Anmeldeinformationen](crawler-lf-integ.md)
+ [Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen](crawler-s3-event-notifications.md)

# Planen inkrementeller Crawls zum Hinzufügen neuer Partitionen
<a name="incremental-crawls"></a>

Sie können die AWS-Glue-Crawler Ausführung inkrementeller Crawls so konfigurieren, dass dem Tabellenschema nur neue Partitionen hinzugefügt werden. Wenn der Crawler zum ersten Mal ausgeführt wird, führt er einen vollständigen Crawl durch, um die gesamte Datenquelle zu verarbeiten und das vollständige Schema sowie alle vorhandenen Partitionen in AWS Glue Data Catalog aufzuzeichnen.

Nach dem ersten vollständigen Crawl werden nur noch inkrementelle Crawls durchgeführt, bei denen der Crawler nur die neuen Partitionen identifiziert und hinzufügt, die seit dem letzten Crawl hinzugefügt wurden. Dieser Ansatz führt zu niedrigeren Crawl-Zeiten, da der Crawler nicht mehr bei jeder Ausführung die gesamte Datenquelle verarbeiten muss, sondern sich nur noch auf die neuen Partitionen konzentriert. 

**Anmerkung**  
Änderungen oder Löschungen vorhandener Partitionen werden von inkrementellen Crawls nicht erkannt. Diese Konfiguration eignet sich am besten für Datenquellen mit einem stabilen Schema. Wenn eine einmalige größere Schemaänderung auftritt, empfiehlt es sich, den Crawler vorübergehend so einzustellen, dass er einen vollständigen Crawl durchführt, um das neue Schema genau zu erfassen, und dann wieder in den inkrementellen Crawling-Modus zurückzukehren. 

Das folgende Diagramm zeigt, dass der Crawler bei aktivierter Einstellung für inkrementelles Crawling nur den neu hinzugefügten Ordner „month=March“ erkennt und dem Katalog hinzufügt.

![\[Das folgende Diagramm zeigt, dass Dateien für den Monat März hinzugefügt wurden.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawlers-s3-folders-new.png)


Gehen Sie wie folgt vor, um Ihren Crawler so zu aktualisieren, dass er inkrementelle Crawls durchführt:

------
#### [ AWS-Managementkonsole ]

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter. [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)

1. Wählen Sie im **Datenkatalog** die Option **Crawler** aus.

1. Wählen Sie einen Crawler aus, den Sie für das inkrementelle Crawling einrichten möchten.

1. Wählen Sie **Bearbeiten** aus.

1. Wählen Sie **Schritt 2 aus. Wählen Sie Datenquellen und Klassifikatoren** aus.

1. Wählen Sie die Datenquelle aus, für die Sie inkrementelle Crawls durchführen möchten. 

1. Wählen Sie **Bearbeiten** aus.

1. Wählen Sie unter **Nachfolgende Crawl-Ausführungen** die Option **Nur neue Unterordner crawlen** aus.

1. Wählen Sie **Aktualisieren** aus.

Informationen zum Erstellen eines Zeitplans für einen Crawler finden Sie unter [Planen eines Crawlers](schedule-crawler.md).

------
#### [ AWS CLI ]

```
aws glue update-crawler \
 --name myCrawler \
 --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \
 --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
```

------

**Hinweise und Einschränkungen**  
Wenn diese Option aktiviert ist, können Sie die Amazon-S3-Zieldatenspeicher beim Bearbeiten des Crawlers nicht ändern. Diese Option wirkt sich auf bestimmte Crawler-Konfigurationseinstellungen aus. Wenn diese Option aktiviert ist, erzwingt sie das Aktualisierungs- und Löschverhalten des Crawlers für `LOG`. Dies bedeutet, dass:
+ Wenn Objekte entdeckt werden, bei denen Schemas nicht kompatibel sind, fügt der Crawler die Objekte nicht dem Datenkatalog hinzu und fügt dieses Detail als Protokoll in Logs hinzu. CloudWatch 
+ Gelöschte Objekte werden im Datenkatalog nicht aktualisiert.

# Generieren von Partitionsindizes
<a name="crawler-configure-partition-indexes"></a>

Der Datenkatalog unterstützt die Erstellung von Partitionsindizes, um eine effiziente Suche nach bestimmten Partitionen zu ermöglichen. Weitere Informationen finden Sie unter [Erstellen von Partitionsindizes](https://docs.aws.amazon.com/glue/latest/dg/partition-indexes.html). Der AWS Glue Crawler erstellt standardmäßig Partitionsindizes für Amazon S3- und Delta Lake-Ziele.

------
#### [ AWS-Managementkonsole ]

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter. [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)

1. Wählen Sie im **Datenkatalog** die Option **Crawler** aus.

1. Wenn Sie einen Crawler definieren, ist die Option zum **automatischen Erstellen von Partitionsindizes** standardmäßig unter **Erweiterte Optionen** auf der Seite **Festlegen der Ausgabe und Zeitplanung** aktiviert.

   Um diese Option zu deaktivieren, können Sie das Kontrollkästchen **Partitionsindizes automatisch erstellen** in der Konsole deaktivieren. 

1. Schließen Sie die Crawler-Konfiguration ab und wählen Sie **Crawler erstellen** aus.

------
#### [ AWS CLI ]

 Sie können diese Option auch deaktivieren, indem Sie die AWS CLI verwenden und den `CreatePartitionIndex ` im Parameter `configuration` festlegen. Der Standardwert ist "True".

```
aws glue update-crawler \
    --name myCrawler \
    --configuration '{"Version": 1.0, "CreatePartitionIndex": false }'
```

------

## Nutzungshinweise für Partitionsindizes
<a name="crawler-configure-partition-indexes-usage-notes"></a>
+ Vom Crawler erstellte Tabellen verfügen standardmäßig nicht über die Variable `partition_filtering.enabled`. Weitere Informationen finden Sie unter [AWS Glue -Partitionsindizierung und -filterung](https://docs.aws.amazon.com/athena/latest/ug/glue-best-practices.html#glue-best-practices-partition-index).
+ Das Erstellen von Partitionsindizes für verschlüsselte Partitionen wird nicht unterstützt.

# Verhindern, dass ein Crawler ein vorhandenes Schema ändert
<a name="crawler-schema-changes-prevent"></a>

 Sie können verhindern, dass AWS-Glue-Crawler s bei der Ausführung Schemaänderungen am Datenkatalog vornimmt. Standardmäßig aktualisieren Crawler das Schema im Data Catalog so, dass es der Datenquelle entspricht, die gecrawlt wird. Manchmal möchten Sie jedoch möglicherweise verhindern, dass der Crawler das vorhandene Schema ändert, insbesondere wenn Sie die Daten transformiert oder bereinigt haben und nicht möchten, dass das ursprüngliche Schema die Änderungen überschreibt.

 Gehen Sie wie unten beschrieben vor, um Ihren Crawler so zu konfigurieren, dass er das bestehende Schema in einer Tabellendefinition nicht überschreibt. 

------
#### [  AWS-Managementkonsole  ]

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Wählen Sie im **Datenkatalog** die Option **Crawler** aus.

1. Wählen Sie einen Crawler in der Liste aus und wählen Sie **Bearbeiten** aus.

1. Wählen Sie **Schritt 4: Festlegen von Ausgabe und Zeitplanung** aus.

1. Wählen Sie unter **Erweiterte Optionen** die Option **Nur neue Spalten hinzufügen** oder **Änderung ignorieren und Tabelle im Data Catalog nicht aktualisieren** aus. 

1.  Sie können außerdem eine Crawler-Konfigurationsoption **Alle neuen und vorhandenen Partitionen mit Metadaten aus der Tabelle aktualisieren** festlegen. Dadurch wird festgelegt, dass Partitionsschemas von der Tabelle erben. 

1. Wählen Sie **Aktualisieren** aus.

------
#### [ AWS CLI ]

Das folgende Beispiel zeigt, wie ein Crawler so konfiguriert wird, dass er das bestehende Schema nicht ändert, sondern nur neue Spalten hinzufügt:

```
aws glue update-crawler \
  --name myCrawler \
  --configuration '{"Version": 1.0, "CrawlerOutput": {"Tables": {"AddOrUpdateBehavior": "MergeNewColumns"}}}'
```

Das folgende Beispiel zeigt, wie ein Crawler so konfiguriert wird, dass er das bestehende Schema nicht ändert und keine neue Spalten hinzufügt:

```
aws glue update-crawler \
  --name myCrawler \
  --schema-change-policy UpdateBehavior=LOG \
  --configuration '{"Version": 1.0, "CrawlerOutput": {"Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }}}'
```

------
#### [ API ]

Wenn Sie nicht möchten, dass ein Tabellenschema geändert wird, wenn ein Crawler ausgeführt wird, legen Sie die Schemaänderungsrichtlinie auf `LOG` fest. 

Legen Sie folgende Parameter fest, wenn Sie den Crawler mit der API konfigurieren:
+ Legen Sie das `UpdateBehavior`-Feld in der `SchemaChangePolicy`-Struktur auf `LOG` fest.
+  Legen Sie das `Configuration`-Feld mit einer Zeichenfolgendarstellung des folgenden JSON-Objekts in der Crawler-API fest, beispielsweise: 

  ```
  {
     "Version": 1.0,
     "CrawlerOutput": {
        "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }
     }
  }
  ```

------

# Erstellen eines einzelnen Schemas für jeden Amazon-S3-Include-Pfad
<a name="crawler-grouping-policy"></a>

Standardmäßig gilt: Wenn ein Crawler Tabellen für in Amazon S3 gespeicherte Daten definiert, berücksichtigt er sowohl die Datenkompatibilität als auch die Schema-Ähnlichkeit. Zu den berücksichtigten Datenkompatibilitätsfaktoren gehört unter anderem, ob die Daten das gleiche Format haben (z. B. JSON), den gleichen Kompressionstyp (z. B. GZIP), die Struktur des Amazon-S3-Pfades und andere Datenattribute. Die Ähnlichkeit des Schemas ist ein Maß dafür, wie ähnlich die Schemas separater Amazon-S3-Objekte sind.

Um diese Option veranschaulichen, nehmen Sie an, Sie definieren einen Crawler mit dem Include-Pfad `s3://amzn-s3-demo-bucket/table1/`. Wenn der Crawler ausgeführt wird, findet er zwei JSON-Dateien mit den folgenden Eigenschaften:
+ **Datei 1** – `S3://amzn-s3-demo-bucket/table1/year=2017/data1.json`
+ *Dateiinhalt* – `{“A”: 1, “B”: 2}`
+ *Schema* – `A:int, B:int`
+ **Datei 2** – `S3://amzn-s3-demo-bucket/table1/year=2018/data2.json`
+ *Dateiinhalt* – `{“C”: 3, “D”: 4}`
+ *Schema* – `C: int, D: int`

Standardmäßig erstellt der Crawler zwei Tabellen namens `year_2017` und `year_2018`, da die Schemas nicht ausreichend ähnlich sind. Wenn jedoch die Option **Create a single schema for each S3 path (Erstellen eines einzelnen Schemas für jeden S3-Pfad)** ausgewählt ist, und wenn die Daten kompatibel sind, erstellt der Crawler eine Tabelle. Die Tabelle hat das Schema `A:int,B:int,C:int,D:int` und `partitionKey` `year:string`.

------
#### [ AWS-Managementkonsole ]

1. Melden Sie sich bei an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Wählen Sie unter dem **Datenkatalog** die Option **Crawler** aus.

1. Wenn Sie einen neuen Crawler konfigurieren, wählen Sie unter **Ausgabe und Planung** unter den erweiterten Optionen die Option **Ein einzelnes Schema für jeden S3-Pfad erstellen** aus. 

------
#### [ AWS CLI ]

Sie können einen Crawler konfigurieren, um `CombineCompatibleSchemas` in einer gemeinsamen Tabellendefinition durchzuführen, sofern dies möglich ist. Mit dieser Option berücksichtigt der Crawler weiterhin die Datenkompatibilität, ignoriert aber die Ähnlichkeit der spezifischen Schemata bei der Auswertung von Amazon-S3-Objekten im angegebenen Include-Pfad.

Wenn Sie den Crawler mit dem konfigurieren AWS CLI, legen Sie die folgende Konfigurationsoption fest:

```
aws glue update-crawler \
   --name myCrawler \
   --configuration '{"Version": 1.0, "Grouping": {"TableGroupingPolicy": "CombineCompatibleSchemas" }}'
```

------
#### [ API ]

Verwenden Sie die folgende Konfigurationsoption, wenn Sie den Crawler mit der API konfigurieren:

 Legen Sie das `Configuration`-Feld mit einer Zeichenfolgendarstellung des folgenden JSON-Objekts in der Crawler-API fest, beispielsweise: 

```
{
   "Version": 1.0,
   "Grouping": {
      "TableGroupingPolicy": "CombineCompatibleSchemas" }
}
```

------

# Festlegen von Tabellenspeicherort und Partitionierungsebene
<a name="crawler-table-level"></a>

Standardmäßig gilt: Wenn ein Crawler für in Amazon S3 gespeicherte Daten Tabellen definiert, versucht der Crawler, Schemata zusammenzuführen und Tabellen auf oberster Ebene zu erstellen (`year=2019`). In einigen Fällen kann es vorkommen, dass der Crawler eine Tabelle für den Ordner `month=Jan` erstellen soll aber stattdessen eine Partition erstellt, da ein Ordner der gleichen Ebene (`month=Mar`) in dieselbe Tabelle gespeichert wurde.

Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen. Wenn Sie eine **Tabellen-Ebene** angeben, wird die Tabelle auf dieser absoluten Ebene aus dem Amazon S3 Bucket erstellt.

![\[Crawler-Gruppierung mit Tabellenebene, die als Ebene 2 angegeben ist.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-table-level1.jpg)


 Wenn Sie den Crawler auf der Konsole konfigurieren, können Sie einen Wert für die Crawler-Option **Tabellen-Ebene** angeben. Der Wert muss eine positive Ganzzahl sein, die die Tabellenposition (die absolute Ebene im Datensatz) angibt. Die Ebene für den Ordner der obersten Ebene ist 1. Beispiel: Wenn die Ebene auf 3 festgelegt wurde, wird die Tabelle für den Pfad `mydataset/year/month/day/hour` am Speicherort `mydataset/year/month` erstellt. 

------
#### [ AWS-Managementkonsole ]

1. Melden Sie sich bei an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Wählen Sie unter dem **Datenkatalog** die Option **Crawler** aus.

1. Wenn Sie einen Crawler konfigurieren, wählen Sie unter **Ausgabe und Planung** unter **Erweiterte Optionen** die Option **Tabellenebene** aus.

![\[Geben Sie eine Tabellenebene in der Crawler-Konfiguration an.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-configuration-console.png)


------
#### [ AWS CLI ]

Wenn Sie den Crawler mit dem konfigurieren AWS CLI, legen Sie den `configuration` Parameter wie im Beispielcode fest: 

```
aws glue update-crawler \
  --name myCrawler \
  --configuration '{"Version": 1.0, "Grouping": { "TableLevelConfiguration": 2 }}'
```

------
#### [ API ]

Legen Sie das `Configuration`-Feld mit einer Zeichenfolgendarstellung des folgenden JSON-Objekts fest, wenn Sie den Crawler mit der API konfigurieren, beispielsweise: 

```
configuration = jsonencode(
{
   "Version": 1.0,
   "Grouping": {
            TableLevelConfiguration = 2  
        }
})
```

------
#### [ CloudFormation ]

In diesem Beispiel legen Sie die Option **auf Tabellenebene** fest, die in der Konsole in Ihrer CloudFormation Vorlage verfügbar ist:

```
"Configuration": "{
    \"Version\":1.0,
    \"Grouping\":{\"TableLevelConfiguration\":2}
}"
```

------

# Angeben der maximalen Anzahl von Tabellen, die der Crawler erstellen darf
<a name="crawler-maximum-number-of-tables"></a>

Sie können optional die maximale Anzahl von Tabellen angeben, die der Crawler erstellen darf, indem Sie a `TableThreshold` über die AWS Glue Konsole oder AWS CLI angeben. Wenn die vom Crawler während des Crawlings erkannten Tabellen größer als dieser Eingabewert sind, schlägt das Crawling fehl und es werden keine Daten in den Data Catalog geschrieben.

Dieser Parameter ist nützlich, wenn die Tabellen, die vom Crawler erkannt und erstellt werden, viel größer sind als erwartet. Dafür kann es mehrere Gründe geben, wie zum Beispiel:
+ Wenn Sie einen AWS Glue Job zum Auffüllen Ihrer Amazon S3 S3-Speicherorte verwenden, können Sie am Ende leere Dateien auf derselben Ebene wie ein Ordner haben. Wenn Sie in solchen Fällen einen Crawler an diesem Amazon-S3-Speicherort ausführen, erstellt der Crawler aufgrund von Dateien und Ordnern, die auf derselben Ebene vorhanden sind, mehrere Tabellen.
+ Wenn Sie `"TableGroupingPolicy": "CombineCompatibleSchemas"` nicht konfigurieren, erhalten Sie möglicherweise mehr Tabellen als erwartet. 

Sie geben den `TableThreshold` als Ganzzahl größer 0 an. Dieser Wert wird pro Crawler konfiguriert. Das heißt, für jedes Crawling wird dieser Wert berücksichtigt. Beispiel: Für einen Crawler wurde der `TableThreshold`-Wert auf 5 gesetzt. Bei jedem Crawl wird die Anzahl der erkannten Tabellen mit diesem Tabellen-Schwellenwert (5) AWS Glue verglichen. Wenn die Anzahl der erkannten Tabellen unter 5 liegt, werden die Tabellen in den Datenkatalog AWS Glue geschrieben. Falls nicht, schlägt der Crawl fehl, ohne in den Datenkatalog zu schreiben.

------
#### [ AWS-Managementkonsole ]

**Zur Einstellung `TableThreshold` verwenden Sie: AWS-Managementkonsole**

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Legen Sie bei der Konfiguration eines Crawlers unter **Ausgabe und Planung** den **maximalen Tabellenschwellenwert** auf die Anzahl der Tabellen fest, die der Crawler generieren darf.  
![\[Im Bereich Ausgabe und Planung der AWS Konsole wird der Parameter Maximaler Schwellenwert für Tabellen angezeigt.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-max-tables.png)

------
#### [ AWS CLI ]

Zum Einstellen `TableThreshold` mit dem AWS CLI:

```
aws glue update-crawler \
    --name myCrawler \
    --configuration '{"Version": 1.0, "CrawlerOutput": {"Tables": { "TableThreshold": 5 }}}'
```

------
#### [ API ]

Festlegen von `TableThreshold` mit der API:

```
"{"Version":1.0,
"CrawlerOutput":
{"Tables":{"AddOrUpdateBehavior":"MergeNewColumns",
"TableThreshold":5}}}";
```

------

Fehlermeldungen werden protokolliert, um Ihnen zu helfen, Tabellenpfade zu identifizieren und Ihre Daten zu bereinigen. Beispiel: Melden Sie sich bei Ihrem Konto an, wenn der Crawler fehlschlägt, weil die Tabellenanzahl größer als der angegebene Tabellenschwellenwert war:

```
Table Threshold value = 28, Tables detected - 29
```

In CloudWatch protokollieren wir alle erkannten Tabellenpositionen als INFO-Meldung. Ein Fehler wird als Grund für den Fehlschlag protokolliert.

```
ERROR com.amazonaws.services.glue.customerLogs.CustomerLogService - CustomerLogService received CustomerFacingException with message 
The number of tables detected by crawler: 29 is greater than the table threshold value provided: 28. Failing crawler without writing to Data Catalog.
com.amazonaws.services.glue.exceptions.CustomerFacingInternalException: The number of tables detected by crawler: 29 is greater than the table threshold value provided: 28. 
Failing crawler without writing to Data Catalog.
```

# Konfigurieren eines Crawlers für die Verwendung von Lake-Formation-Anmeldeinformationen
<a name="crawler-lf-integ"></a>

Sie können einen Crawler so konfigurieren, dass er AWS Lake Formation Anmeldeinformationen für den Zugriff auf einen Amazon S3 S3-Datenspeicher oder eine Datenkatalogtabelle mit einem zugrunde liegenden Amazon S3 S3-Speicherort innerhalb desselben AWS-Konto oder eines anderen AWS-Konto verwendet. Sie können eine vorhandene Data-Catalog-Tabelle als Crawler-Ziel konfigurieren, wenn sich der Crawler und die Data-Catalog-Tabelle im selben Konto befinden. Derzeit ist nur ein einzelnes Katalogziel mit einer einzigen Katalogtabelle zulässig, wenn eine Datenkatalogtabelle als Ziel eines Crawlers verwendet wird.

**Anmerkung**  
Wenn Sie eine Data-Catalog-Tabelle als Crawler-Ziel definieren, stellen Sie sicher, dass der zugrunde liegende Speicherort der Data-Catalog-Tabelle ein Amazon-S3-Speicherort ist. Crawler, die Lake-Formation-Anmeldeinformationen verwenden, unterstützen nur Data-Catalog-Ziele mit zugrunde liegenden Amazon-S3-Speicherorten.

## Einrichtung erforderlich, wenn sich der Crawler und der registrierte Amazon-S3-Speicherort oder die Data-Catalog-Tabelle im selben Konto befinden (In-Account-Crawling)
<a name="in-account-crawling"></a>

Damit der Crawler mithilfe der Lake-Formation-Anmeldeinformationen auf einen Datenspeicher oder eine Data-Catalog-Tabelle zugreifen kann, müssen Sie den Datenspeicherort bei Lake Formation registrieren. Außerdem muss die IAM-Rolle des Crawlers über Berechtigungen zum Lesen der Daten von dem Ziel verfügen, an dem der Amazon-S3-Bucket registriert ist.

Sie können die folgenden Konfigurationsschritte mit dem AWS-Managementkonsole oder AWS Command Line Interface (AWS CLI) ausführen.

------
#### [ AWS-Managementkonsole ]

1. Bevor Sie einen Crawler für den Zugriff auf die Crawler-Quelle konfigurieren, registrieren Sie den Datenspeicherort des Datenspeichers oder des Data Catalog bei Lake Formation. Registrieren Sie in der Lake Formation Formation-Konsole ([https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/)) einen Amazon S3 S3-Standort als Stammverzeichnis Ihres Data Lakes an dem Ort, AWS-Konto an dem der Crawler definiert ist. Weitere Informationen finden Sie unter [Registrieren eines Amazon-S3-Speicherorts](https://docs.aws.amazon.com/lake-formation/latest/dg/register-location.html).

1. Gewähren Sie der IAM-Rolle **Data location** (Datenspeicherort)-Berechtigungen, die für die Crawler-Ausführung verwendet wird, damit der Crawler die Daten vom Ziel in Lake Formation lesen kann. Weitere Informationen finden Sie unter [Erteilen von Datenspeicherortberechtigungen (im selben Konto)](https://docs.aws.amazon.com/lake-formation/latest/dg/granting-location-permissions-local.html).

1. Gewähren Sie der Crawler-Rolle Zugriffsberechtigungen (`Create`) auf die Datenbank, die als Ausgabedatenbank angegeben ist. Weitere Informationen finden Sie unter [Erteilen von Datenbankberechtigungen mit der Lake-Formation-Konsole und der benannten Ressourcenmethode](https://docs.aws.amazon.com/lake-formation/latest/dg/granting-database-permissions.html).

1. Erstellen Sie in der IAM-Konsole ([https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/)) eine IAM-Rolle für den Crawler. Fügen Sie die `lakeformation:GetDataAccess`-Richtlinie zur Rolle hinzu.

1. Wählen Sie in der AWS Glue Konsole ([https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)) bei der Konfiguration des Crawlers die Option **Lake Formation Formation-Anmeldeinformationen für das Crawlen der Amazon S3 S3-Datenquelle verwenden** aus.
**Anmerkung**  
Das Feld accountId ist optional für das In-Account-Crawling.

------
#### [ AWS CLI ]

```
aws glue --profile demo create-crawler --debug --cli-input-json '{
    "Name": "prod-test-crawler",
    "Role": "arn:aws:iam::111122223333:role/service-role/AWSGlueServiceRole-prod-test-run-role",
    "DatabaseName": "prod-run-db",
    "Description": "",
    "Targets": {
    "S3Targets":[
                {
                 "Path": "s3://amzn-s3-demo-bucket"
                }
                ]
                },
   "SchemaChangePolicy": {
      "UpdateBehavior": "LOG",
      "DeleteBehavior": "LOG"
  },
  "RecrawlPolicy": {
    "RecrawlBehavior": "CRAWL_EVERYTHING"
  },
  "LineageConfiguration": {
    "CrawlerLineageSettings": "DISABLE"
  },
  "LakeFormationConfiguration": {
    "UseLakeFormationCredentials": true,
    "AccountId": "111122223333"
  },
  "Configuration": {
           "Version": 1.0,
           "CrawlerOutput": {
             "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" },
             "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" }
           },
           "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" }
         },
  "CrawlerSecurityConfiguration": "",
  "Tags": {
    "KeyName": ""
  }
}'
```

------

# Einrichtung erforderlich, wenn sich der Crawler und der registrierte Amazon-S3-Standort im selben Konto befinden (Cross-Account-Crawling)
<a name="cross-account-crawling"></a>

Damit der Crawler mit Lake-Formation-Anmeldeinformationen auf einen Datenspeicher in einem anderen Konto zugreifen kann, müssen Sie zuerst den Amazon-S3-Datenspeicherort bei Lake Formation registrieren. Anschließend erteilen Sie dem Konto des Crawlers Datenspeicherortberechtigungen, indem Sie die folgenden Schritte ausführen.

Sie können die folgenden Schritte mit dem AWS-Managementkonsole oder ausführen AWS CLI.

------
#### [ AWS-Managementkonsole ]

1. In dem Konto, in dem der Amazon-S3-Speicherort registriert ist (Konto B):

   1. Registrieren Sie einen Amazon-S3-Pfad bei Lake Formation. Weitere Informationen finden Sie unter [Registrieren eines Amazon-S3-Standorts](https://docs.aws.amazon.com/lake-formation/latest/dg/register-location.html).

   1.  Gewähren Sie **Data location** (Datenspeicherort)-Berechtigungen für das Konto (Konto A), in dem der Crawler ausgeführt wird. Weitere Informationen finden Sie unter [Erteilen von Datenstandortberechtigungen](https://docs.aws.amazon.com/lake-formation/latest/dg/granting-location-permissions-local.html). 

   1. Erstellen Sie eine leere Datenbank in Lake Formation mit dem zugrunde liegenden Speicherort als Amazon-S3-Speicherort. Weitere Informationen finden Sie unter [Erstellen einer Datenbank](https://docs.aws.amazon.com/lake-formation/latest/dg/creating-database.html).

   1. Gewähren Sie Konto A (das Konto, in dem der Crawler ausgeführt wird) Zugriff auf die Datenbank, die Sie im vorherigen Schritt erstellt haben. Weitere Informationen finden Sie unter [Erteilen von Datenbankberechtigungen](https://docs.aws.amazon.com/lake-formation/latest/dg/granting-database-permissions.html). 

1. In dem Konto, in dem der Crawler erstellt und ausgeführt wird (Konto A):

   1.  Akzeptieren Sie mithilfe der AWS RAM Konsole die Datenbank, die vom externen Konto (Konto B) gemeinsam genutzt wurde. Weitere Informationen finden Sie unter [Annehmen einer Einladung zur gemeinsamen Nutzung einer Ressource von AWS Resource Access Manager](https://docs.aws.amazon.com/lake-formation/latest/dg/accepting-ram-invite.html). 

   1.  Erstellen Sie eine IAM-Rolle für den Crawler. Fügen Sie die `lakeformation:GetDataAccess`-Richtlinie zur Rolle hinzu.

   1.  Erteilen Sie in der Lake Formation-Konsole ([https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/)) der IAM-Rolle, die für den Crawler-Lauf verwendet wurde, **Datenstandortberechtigungen** für den Amazon S3 S3-Zielstandort, damit der Crawler die Daten vom Ziel in Lake Formation lesen kann. Weitere Informationen finden Sie unter [Erteilen von Datenstandortberechtigungen](https://docs.aws.amazon.com/lake-formation/latest/dg/granting-location-permissions-local.html). 

   1.  Erstellen Sie einen Ressourcenlink in der freigegebenen Datenbank. Weitere Informationen finden Sie unter [Erstellen eines Ressourcenlinks](https://docs.aws.amazon.com/lake-formation/latest/dg/create-resource-link-database.html). 

   1.  Gewähren Sie der Crawler-Rolle Zugriffsberechtigungen (`Create`) in der gemeinsam genutzten Datenbank und (`Describe`) dem Ressourcenlink. Der Ressourcenlink wird in der Ausgabe für den Crawler angegeben. 

   1.  Wählen Sie in der AWS Glue Konsole ([https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)) bei der Konfiguration des Crawlers die Option **Lake Formation Formation-Anmeldeinformationen für das Crawlen der Amazon S3 S3-Datenquelle verwenden** aus.

      Geben Sie für kontoübergreifendes Crawling die AWS-Konto ID an, unter der der Amazon S3 S3-Zielstandort bei Lake Formation registriert ist. Das Feld „accountId“ ist optional für das Crawling im Konto.   
![\[IAM role selection and Lake Formation configuration options for AWS-Glue-Crawler security settings.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/cross-account-crawler.png)

------
#### [ AWS CLI ]

```
aws glue --profile demo create-crawler --debug --cli-input-json '{
    "Name": "prod-test-crawler",
    "Role": "arn:aws:iam::111122223333:role/service-role/AWSGlueServiceRole-prod-test-run-role",
    "DatabaseName": "prod-run-db",
    "Description": "",
    "Targets": {
    "S3Targets":[
                {
                 "Path": "s3://amzn-s3-demo-bucket"
                }
                ]
                },
   "SchemaChangePolicy": {
      "UpdateBehavior": "LOG",
      "DeleteBehavior": "LOG"
  },
  "RecrawlPolicy": {
    "RecrawlBehavior": "CRAWL_EVERYTHING"
  },
  "LineageConfiguration": {
    "CrawlerLineageSettings": "DISABLE"
  },
  "LakeFormationConfiguration": {
    "UseLakeFormationCredentials": true,
    "AccountId": "111111111111"
  },
  "Configuration": {
           "Version": 1.0,
           "CrawlerOutput": {
             "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" },
             "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" }
           },
           "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" }
         },
  "CrawlerSecurityConfiguration": "",
  "Tags": {
    "KeyName": ""
  }
}'
```

------

**Anmerkung**  
Ein Crawler, der Lake-Formation-Anmeldeinformationen verwendet, wird nur für Amazon-S3- und Data-Catalog-Ziele unterstützt.
Für Ziele, die Lake-Formation-Anmeldeinformationen verwenden, müssen die zugrunde liegenden Amazon-S3-Speicherorte demselben Bucket angehören. Beispielsweise können Kunden mehrere Ziele verwenden (s3://amzn-s3-demo-bucket1/folder1, s3://amzn-s3-demo-bucket1/folder2), solange sich alle Zielorte unter demselben Bucket (amzn-s3-demo-bucket1) befinden. Die Angabe verschiedener Buckets (s3://amzn-s3-demo-bucket1/folder1, s3://amzn-s3-demo-bucket2/folder2) ist nicht zulässig.
Derzeit ist nur ein einzelnes Katalogziel mit einer einzigen Katalogtabelle zulässig, wenn eine Data Catalog als Ziel eines Crawlers verwendet wird.

# Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen
<a name="crawler-s3-event-notifications"></a>

Anstatt die Objekte aus einem Amazon S3- oder Data Catalog-Ziel aufzulisten, können Sie den Crawler so konfigurieren, dass er Amazon S3-Ereignisse verwendet, um Änderungen zu finden. Dieses Feature verbessert die Recrawl-Zeit, indem Amazon S3-Ereignisse verwendet werden, um die Änderungen zwischen zwei Crawls zu identifizieren, indem alle Dateien aus dem Unterordner aufgeführt werden, der das Ereignis ausgelöst hat, anstatt das vollständige Amazon S3- oder Data Calatog-Ziel aufzulisten.

Der erste Crawl listet alle Amazon S3-Objekte aus dem Ziel auf. Nach dem ersten erfolgreichen Crawl können Sie wählen, ob Sie manuell oder nach einem festgelegten Zeitplan recrawlen möchten. Der Crawler listet nur die Objekte dieser Ereignisse auf, anstatt alle Objekte aufzulisten.

Wenn das Ziel eine Datenkatalogtabelle ist, aktualisiert der Crawler die vorhandenen Tabellen im Datenkatalog mit Änderungen (z. B. zusätzliche Partitionen in einer Tabelle).

Die Vorteile eines Umstiegs zu einem ereignisbasierten Crawler auf Amazon S3 sind:
+ Ein schnelleres Recrawl, da die Auflistung aller Objekte aus dem Ziel nicht erforderlich ist, stattdessen erfolgt die Auflistung bestimmter Ordner, in denen Objekte hinzugefügt oder gelöscht werden.
+ Eine Senkung der Gesamtdurchforstungskosten, da die Auflistung bestimmter Ordner erfolgt, in denen Objekte hinzugefügt oder gelöscht werden.

Die Amazon S3-Ereignisdurchforstung wird ausgeführt, indem Amazon S3-Ereignisse aus der SQS-Warteschlange basierend auf dem Crawler-Zeitplan verwendet werden. Es fallen keine Kosten an, wenn keine Ereignisse in der Warteschlange vorhanden sind. Amazon S3-Ereignisse können so konfiguriert werden, dass sie direkt in die SQS-Warteschlange bzw. in Fällen, in denen mehrere Verbraucher dasselbe Ereignis benötigen, in eine Kombination aus SNS und SQS gelangen. Weitere Informationen finden Sie unter [Einrichten eines Kontos für Amazon S3-Ereignisbenachrichtigungen](#crawler-s3-event-notifications-setup).

Nach dem Erstellen und Konfigurieren des Crawlers im Ereignismodus wird das erste Crawl im Listing-Modus ausgeführt, indem eine vollständige Auflistung des Amazon S3- oder Data Catalog-Ziels ausgeführt wird. Das folgende Protokoll bestätigt den Crawl-Vorgang durch den Verbrauch von Amazon S3-Ereignissen nach dem ersten erfolgreichen Crawl: „Der Crawl wird durch den Verbrauch von Amazon S3-Ereignissen ausgeführt.“

Nach dem Erstellen des Amazon S3-Ereigniscrawls und dem Aktualisieren der Crawler-Eigenschaften, die sich auf das Crawl auswirken können, wird das Crawl im List-Modus ausgeführt und das folgende Protokoll wird hinzugefügt: „Crawl läuft nicht im S3-Ereignismodus“.

**Anmerkung**  
Die maximale Anzahl der zu verarbeitenden Nachrichten beträgt 100 000 Nachrichten pro Crawl.

## Überlegungen und Einschränkungen
<a name="s3event-crawler-limitations"></a>

Die folgenden Überlegungen und Einschränkungen gelten, wenn Sie einen Crawler so konfigurieren, dass er Amazon-S3-Ereignisbenachrichtigungen verwendet, um Änderungen zu finden. 
+  **Wichtiges Verhalten bei gelöschten Partitionen** 

  Bei Verwendung von Amazon-S3-Ereigniscrawlern mit Datenkatalogtabellen:
  +  Wenn Sie eine Partition mit dem API-Aufruf `DeletePartition` löschen, müssen Sie auch alle S3-Objekte unter dieser Partition löschen und bei der Konfiguration Ihrer S3-Ereignisbenachrichtigungen **Alle Objektentfernungsereignisse** auswählen. Wenn keine Löschereignisse konfiguriert sind, erstellt der Crawler die gelöschte Partition bei seiner nächsten Ausführung neu. 
+ Nur ein einziges Ziel wird vom Crawler unterstützt, unabhängig davon, ob es sich um Amazon S3- oder Data Catalog-Ziele handelt.
+ SQS auf privater VPC wird nicht unterstützt.
+ Amazon S3-Probenahme wird nicht unterstützt.
+ Das Crawlerziel sollte ein Ordner für ein Amazon S3-Ziel oder eine oder mehrereAWS Glue Data Catalog-Tabellen für ein Data Catalog-Ziel sein.
+ Der Pfad-Platzhalter „alles“ wird nicht unterstützt: s3://%
+ Bei einem Data Catalog-Ziel sollten alle Katalogtabellen auf denselben Amazon S3-Bucket für den Amazon S3-Ereignismodus verweisen.
+ Bei einem Data Catalog-Ziel sollte eine Katalogtabelle nicht auf einen Amazon S3-Speicherort im Delta Lake-Format verweisen (der Ordner \$1symlink enthält oder das `InputFormat` der Katalogtabelle überprüft).

**Topics**
+ [Überlegungen und Einschränkungen](#s3event-crawler-limitations)
+ [Einrichten eines Kontos für Amazon S3-Ereignisbenachrichtigungen](#crawler-s3-event-notifications-setup)
+ [Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für ein Amazon-S3-Ziel:](crawler-s3-event-notifications-setup-console-s3-target.md)
+ [Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für eine Datenkatalogtabelle](crawler-s3-event-notifications-setup-console-catalog-target.md)

## Einrichten eines Kontos für Amazon S3-Ereignisbenachrichtigungen
<a name="crawler-s3-event-notifications-setup"></a>

Führen Sie die folgenden Einrichtungsaufgaben aus. Beachten Sie, dass die Werte in Klammern auf die konfigurierbaren Einstellungen aus dem Skript verweisen.

1. Sie müssen Ereignisbenachrichtigungen für Ihren Amazon S3-Bucket einrichten.

   Weitere Informationen finden Sie unter [Amazon-S3-Ereignisbenachrichtigungen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/EventNotifications.html).

1. Um den ereignisbasierten Amazon S3-Crawler zu verwenden, müssen Sie die Ereignisbenachrichtigung auf für den Amazon-S3-Bucket aktivieren, wobei Ereignisse aus dem Präfix gefiltert werden, was dem S3-Ziel und dem Speicher in SQS entspricht. Sie können SQS und Ereignisbenachrichtigungen über die Konsole einrichten, indem Sie die Schritte unter [Exemplarische Vorgehensweise: Konfigurieren eines Buckets für Benachrichtigungen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/ways-to-add-notification-config-to-bucket.html) befolgen.

1. Fügen Sie die folgende SQS-Richtlinie der vom Crawler verwendeten Rolle hinzu. 

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Sid": "VisualEditor0",
         "Effect": "Allow",
         "Action": [
           "sqs:DeleteMessage",
           "sqs:GetQueueUrl",
           "sqs:ListDeadLetterSourceQueues",
           "sqs:ReceiveMessage",
           "sqs:GetQueueAttributes",
           "sqs:ListQueueTags",
           "sqs:SetQueueAttributes",
           "sqs:PurgeQueue"
         ],
         "Resource": "arn:aws:sqs:us-east-1:111122223333:cfn-sqs-queue"
       }
     ]
   }
   ```

------

# Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für ein Amazon-S3-Ziel:
<a name="crawler-s3-event-notifications-setup-console-s3-target"></a>

Gehen Sie wie folgt vor, um einen Crawler für Amazon S3 S3-Ereignisbenachrichtigungen für ein Amazon S3 S3-Ziel einzurichten, indem Sie die Option AWS-Managementkonsole oder AWS CLI verwenden.

------
#### [ AWS-Managementkonsole ]

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die GuardDuty Konsole unter [https://console.aws.amazon.com/guardduty/](https://console.aws.amazon.com/guardduty/).

1.  Legen Sie Ihre Crawler-Eigenschaften fest. Weitere Informationen finden Sie unter [Festlegen von Crawler-Konfigurationsoptionen auf der AWS Glue-Konsole](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Im Abschnitt **Data source configuration** (Datenquellenkonfiguration) werden Sie Folgendes gefragt: *Sind Ihre Daten bereits AWS Glue-Tabellen zugeordnet?* 

    Standardmäßig ist **Not yet** (Noch nicht) ausgewählt. Behalten Sie bei diesem die Standardeinstellungen bei, da Sie eine Amazon-S3-Datenquelle verwenden und die Daten noch keinen AWS Glue-Tabellen zugeordnet sind. 

1.  Wählen Sie im Abschnitt **Data sources** (Datenquellen) **Add a data source** (Datenquelle hinzufügen) aus.   
![\[Data source configuration interface with options to select or add data sources for crawling.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console1.png)

1.  Konfigurieren Sie im Modal **Add a data source** (Datenquelle hinzufügen) die Amazon-S3-Datenquelle: 
   +  **Data source** (Datenquelle): Standardmäßig ist Amazon S3 ausgewählt. 
   +  **Network connection** (Netzwerkverbindung) (Optional): Wählen Sie **Add new connection** (Neue Verbindung hinzufügen). 
   +  **Location of Amazon S3 data** (Speicherort der Amazon-S3-Daten): Standardmäßig ist **In this account** (In diesem Konto) ausgewählt. 
   +  **Amazon S3 path** (Amazon-S3-Pfad): Geben Sie den Amazon-S3-Pfad an, wo Ordner und Dateien gecrawlt werden. 
   +  **Subsequent crawler runs** (Nachfolgende Crawler-Ausführungen): Wählen Sie **Crawl based on events** (Crawling basierend auf Ereignissen) aus, um Amazon-S3-Ereignisbenachrichtigungen für Ihren Crawler zu verwenden. 
   +  **SQS ARN hinzufügen**: Geben Sie die Datenspeicherparameter einschließlich eines gültigen SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:sqs`). 
   +  **Dead-Letter SQS ARN hinzufügen** (Optional): Geben Sie einen gültigen Amazon Dead-Letter SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:deadLetterQueue`). 
   +  Wählen Sie **Add an Amazon S3 data source** (Amazon-S3-Datenquelle hinzufügen) aus.   
![\[Add data source dialog for S3, showing options for network connection and crawl settings.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console2.png)

------
#### [ AWS CLI ]

 Im Folgenden finden Sie ein Beispiel für einen Amazon S3 AWS CLI S3-Aufruf, um einen Crawler so zu konfigurieren, dass er Ereignisbenachrichtigungen verwendet, um einen Amazon S3 S3-Ziel-Bucket zu crawlen. 

```
Create Crawler:
aws glue update-crawler \
    --name myCrawler \
    --recrawl-policy RecrawlBehavior=CRAWL_EVENT_MODE \
    --schema-change-policy UpdateBehavior=UPDATE_IN_DATABASE,DeleteBehavior=LOG
    --targets '{"S3Targets":[{"Path":"s3://amzn-s3-demo-bucket/", "EventQueueArn": "arn:aws:sqs:us-east-1:012345678910:MyQueue"}]}'
```

------

# Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für eine Datenkatalogtabelle
<a name="crawler-s3-event-notifications-setup-console-catalog-target"></a>

Wenn Sie ein Datenkatalogziel haben, richten Sie einen Crawler für Amazon-S3-Ereignisbenachrichtigungen mit der AWS Glue-Konsole ein:

1.  Legen Sie Ihre Crawler-Eigenschaften fest. Weitere Informationen finden Sie unter [Festlegen von Crawler-Konfigurationsoptionen auf der AWS Glue-Konsole](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Im Abschnitt **Data source configuration** (Datenquellenkonfiguration) werden Sie Folgendes gefragt: *Sind Ihre Daten bereits AWS Glue-Tabellen zugeordnet?* 

    Wählen Sie **Ja**, um vorhandene Tabellen aus Ihrem Data Catalog als Datenquelle auszuwählen. 

1.  Wählen Sie im Abschnitt **Glue-Tabellen** die Option **Tabellen hinzufügen**.   
![\[Data source configuration interface with options to select existing Glue tables or add new ones.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console1-cat.png)

1.  Konfigurieren Sie im Modal **Tabelle hinzufügen** die Datenbank und die Tabellen: 
   +  **Network connection** (Netzwerkverbindung) (Optional): Wählen Sie **Add new connection** (Neue Verbindung hinzufügen). 
   +  **Datenbank**: Wählen Sie eine Datenbank im Data Catalog. 
   +  **Tabellen**: Wählen Sie eine oder mehrere Tabellen aus dieser Datenbank im Data Catalog aus. 
   +  **Subsequent crawler runs** (Nachfolgende Crawler-Ausführungen): Wählen Sie **Crawl based on events** (Crawling basierend auf Ereignissen) aus, um Amazon-S3-Ereignisbenachrichtigungen für Ihren Crawler zu verwenden. 
   +  **SQS ARN hinzufügen**: Geben Sie die Datenspeicherparameter einschließlich eines gültigen SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:sqs`). 
   +  **Dead-Letter SQS ARN hinzufügen** (Optional): Geben Sie einen gültigen Amazon Dead-Letter SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:deadLetterQueue`). 
   +  Wählen Sie **Bestätigen** aus.   
![\[Add Glue tables dialog with network, database, tables, and crawler options.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console2-cat.png)