Einen Crawler verwenden um eine Tabelle hinzuzufügen - Amazon Athena

Einen Crawler verwenden um eine Tabelle hinzuzufügen

AWS Glue-Crawler helfen dabei, das Schema für Datensätze zu ermitteln und als Tabellen im AWS Glue-Datenkatalog zu registrieren. Die Crawler gehen Ihre Daten durch und bestimmen das Schema. Darüber hinaus können Crawler Partitionen erkennen und registrieren. Weitere Informationen finden Sie unter Definieren von Crawlern im AWS Glue-Entwicklerhandbuch. Tabellen aus Daten, die erfolgreich gecrawlt wurden, können von Athena abgefragt werden.

Anmerkung

Athena erkennt keine Ausschlussmuster, die Sie für einen AWS Glue-Crawler angeben. Wenn Sie beispielsweise über einen Amazon-S3-Bucket verfügen, der sowohl .csv- als auch .json-Dateien enthält und Sie die .json-Dateien vom Crawler ausschließen, fragt Athena beide Dateigruppen ab. Um dies zu vermeiden, platzieren Sie die Dateien, die Sie ausschließen möchten, an einem anderen Speicherort.

Erstellen eines AWS Glue-Crawlers

Sie können einen Crawler erstellen, indem Sie in der Athena-Konsole beginnen und dann die AWS Glue-Konsole in integrierter Weise verwenden. Wenn Sie den Crawler erstellen, geben Sie einen Datenspeicherort in Amazon S3 an, der gecrawlt werden soll.

So erstellen Sie einen Crawler in AWS Glue ausgehend von der Athena-Konsole
  1. Öffnen Sie die Athena-Konsole unter https://console.aws.amazon.com/athena/.

  2. Wählen Sie im Abfrage-Editor neben Tables and views (Tabellen und Ansichten) Create (Erstellen) und danach AWS Glue-Crawler aus.

  3. Führen Sie auf der AWS Glue-Konsolenseite Add crawler (Crawler hinzufügen) die Schritte zum Erstellen eines Crawlers aus. Weitere Informationen finden Sie unter Benutzen von AWS Glue-Crawler in diesem Leitfaden und Befüllen des AWS Glue Data Catalog im AWS Glue-Entwicklerhandbuch.

Anmerkung

Athena erkennt keine Ausschlussmuster, die Sie für einen AWS Glue-Crawler angeben. Wenn Sie beispielsweise über einen Amazon-S3-Bucket verfügen, der sowohl .csv- als auch .json-Dateien enthält und Sie die .json-Dateien vom Crawler ausschließen, fragt Athena beide Dateigruppen ab. Um dies zu vermeiden, platzieren Sie die Dateien, die Sie ausschließen möchten, an einem anderen Speicherort.

Nach dem Durchsuchen weist der AWS Glue-Crawler automatisch bestimmte Tabellenmetadaten zu, um eine Kompatibilität mit anderen externen Technologien wie Apache Hive, Presto und Spark sicherzustellen. Es kann vorkommen, dass der Crawler dabei Metadateneigenschaften falsch zuweist. Korrigieren Sie die Eigenschaften in AWS Glue manuell, bevor Sie mit Athena Abfragen für die Tabelle senden. Weitere Informationen finden Sie unter Anzeigen und Bearbeiten von Tabellendetails im AWS Glue-Entwicklerhandbuch.

Es kann vorkommen, dass AWS Glue Metadaten falsch zuweist, wenn eine CSV-Datei einzelne Datenfelder in Anführungszeichen einschließt. Hierdurch kann die Eigenschaft serializationLib falsch abgerufen werden. Weitere Informationen finden Sie unter Umgang mit CSV-Daten in Anführungszeichen.