

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Mehrere Datenquellen mit Crawlern verwenden
<a name="schema-crawlers-data-sources"></a>

Wenn ein AWS Glue Crawler Amazon S3 scannt und mehrere Verzeichnisse erkennt, verwendet er eine Heuristik, um zu ermitteln, wo sich das Stammverzeichnis für eine Tabelle in der Verzeichnisstruktur befindet und welche Verzeichnisse Partitionen für die Tabelle sind. In einigen Fällen, wenn in zwei oder mehr Verzeichnissen ein ähnliches Schema erkannt wird, kann es vorkommen, dass der Crawler diese als Partitionen statt als eigenständige Tabellen behandelt. Eine Möglichkeit sicherzustellen, dass der Crawler eigenständige Tabellen erkennt, besteht darin, das Stammverzeichnis jeder Tabelle als Datenspeicher für den Crawler hinzuzufügen.

Nachfolgend finden Sie ein Beispiel für Partitionen in Amazon S3:

```
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
```

Wenn das Schema für `table1` und `table2` ähnlich ist und eine einzelne Datenquelle auf `s3://amzn-s3-demo-bucket/folder1/` in AWS Glue eingestellt ist, kann der Crawler eine einzelne Tabelle mit zwei Partitionsspalten erstellen: eine Partitionsspalte, die `table1` und enthält`table2`, und eine zweite Partitionsspalte, die Through enthält. `partition1` `partition5`

Damit der AWS Glue Crawler zwei separate Tabellen erstellt, legen Sie fest, dass der Crawler über zwei Datenquellen verfügt, `s3://amzn-s3-demo-bucket/folder1/table1/` und zwar`s3://amzn-s3-demo-bucket/folder1/table2`, wie im folgenden Verfahren gezeigt.

**Um einem vorhandenen Crawler einen S3-Datenspeicher hinzuzufügen, finden Sie in AWS Glue**

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Wählen Sie im Navigationsbereich **Crawlers (Crawler)** aus.

1. Wählen Sie den Link zu Ihrem Crawler und wählen Sie dann **Edit** (Bearbeiten). 

1. Für **Schritt 2: Auswählen von Datenquellen und Klassifizierern** wählen Sie **Edit** (Bearbeiten). 

1. Wählen Sie für **Datenquellen und -Kataloge** **Datenquelle hinzufügen** aus.

1. Wählen Sie im Dialogfeld **Add a data source** (Datenquelle hinzufügen) für den **S3 path** (S3-Pfad) **Browse** (Durchsuchen). 

1. Wählen Sie das Bucket aus, das Sie verwenden möchten, wählen Sie anschließend **Choose** (Auswählen).

   Die hinzugefügte Datenquelle wird in der **Data sources**-Liste (Datenquellenliste) erscheinen.

1. Wählen Sie **Weiter** aus.

1. Erstellen Sie auf der Seite **Configure security settings** (Sicherheitseinstellungen konfigurieren) eine IAM-Rolle für den Crawler und wählen Sie dann **Next** (Weiter).

1. Stellen Sie sicher, dass der S3-Pfad mit einem Schrägstrich endet, und wählen Sie dann **Add an S3 data source** (Hinzufügen einer S3-Datenquelle).

1. Wählen Sie auf der Seite **Set output and scheduling** (Ausgabe und Terminplanung festlegen) für die **Output configuration** (Ausgabe-Konfiguration) die Zieldatenbank.

1. Wählen Sie **Weiter** aus.

1. Überprüfen Sie auf der Seite **Review and update** (überprüfen und aktualisieren) die von Ihnen getroffenen Entscheidungen. Um einen Schritt zu bearbeiten, wählen Sie **Edit** (Bearbeiten).

1.  Wählen Sie **Aktualisieren** aus.