Einen Crawler verwenden, um eine Tabelle hinzuzufügen

AWS Glue Crawler helfen dabei, das Schema für Datensätze zu ermitteln und sie als Tabellen im Datenkatalog zu registrieren. AWS Glue Die Crawler gehen Ihre Daten durch und bestimmen das Schema. Darüber hinaus können Crawler Partitionen erkennen und registrieren. Weitere Informationen finden Sie unter Definieren von Crawlern im AWS Glue -Entwicklerhandbuch. Tabellen aus Daten, die erfolgreich gecrawlt wurden, können von Athena abgefragt werden.

Anmerkung

Athena erkennt keine Ausschlussmuster, die Sie für einen AWS Glue Crawler angeben. Wenn Sie beispielsweise über einen Amazon-S3-Bucket verfügen, der sowohl .csv- als auch .json-Dateien enthält und Sie die .json-Dateien vom Crawler ausschließen, fragt Athena beide Dateigruppen ab. Um dies zu vermeiden, platzieren Sie die Dateien, die Sie ausschließen möchten, an einem anderen Speicherort.

Erstellen Sie einen Crawler AWS Glue

Sie können einen Crawler erstellen, indem Sie in der Athena-Konsole beginnen und dann die AWS Glue -Konsole in integrierter Weise verwenden. Wenn Sie den Crawler erstellen, geben Sie einen Datenspeicherort in Amazon S3 an, der gecrawlt werden soll.

Um einen Crawler von der AWS Glue Athena-Konsole aus zu erstellen

Öffnen Sie die Athena-Konsole unter https://console.aws.amazon.com/athena/.
Wählen Sie im Abfrage-Editor neben Tables and views (Tabellen und Ansichten) Create (Erstellen) und danach AWS Glue -Crawler aus.
Führen Sie auf der AWS Glue-Konsolenseite Add crawler (Crawler hinzufügen) die Schritte zum Erstellen eines Crawlers aus. Weitere Informationen finden Sie unter Verwenden von AWS Glue Crawlern in diesem Handbuch und Auffüllen des AWS Glue Data Catalog im Entwicklerhandbuch.AWS Glue

Anmerkung

Nach einem Crawl weist der AWS Glue Crawler automatisch bestimmte Tabellenmetadaten zu, um die Kompatibilität mit anderen externen Technologien wie Apache Hive, Presto und Spark zu verbessern. Es kann vorkommen, dass der Crawler dabei Metadateneigenschaften falsch zuweist. Korrigieren Sie die Eigenschaften in manuell, AWS Glue bevor Sie die Tabelle mit Athena abfragen. Weitere Informationen finden Sie unter Anzeigen und Bearbeiten von Tabellendetails im AWS Glue -Entwicklerhandbuch.

AWS Glue kann Metadaten falsch zuordnen, wenn eine CSV-Datei jedes Datenfeld in Anführungszeichen setzt, wodurch die Eigenschaft falsch dargestellt wird. serializationLib Weitere Informationen finden Sie unter Umgang mit CSV-Daten in Anführungszeichen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Ein Formular verwenden, um eine Tabelle hinzuzufügen

Mehrere Datenquellen mit Crawlern verwenden