Füllen des AWS Glue-Datenkatalogs - AWS Glue

Füllen des AWS Glue-Datenkatalogs

Sie können AWS Glue Data Catalog mithilfe der folgenden Methoden füllen:

  • AWS-Glue-Crawler – Ein AWS-Glue-Crawler kann Datenquellen wie Datenbanken, Data Lakes und Streaming-Daten automatisch erkennen und katalogisieren. Die Crawler sind die gängigste und empfohlene Methode zum Füllen von des Datenkatalogs, weil sie automatisch Metadaten für eine Vielzahl von Datenquellen erkennen und daraus ableiten können.

  • Manuelles Hinzufügen von Metadaten – Sie können Datenbanken, Tabellen und Verbindungsdetails manuell definieren und sie mithilfe der AWS Glue-Konsole, der Lake-Formation-Konsole, AWS CLI oder AWS Glue-APIs zum Datenkatalog hinzufügen. Die manuelle Eingabe ist nützlich, wenn Sie Datenquellen katalogisieren möchten, die nicht gecrawlt werden können.

  • Integration in andere AWS-Services – Sie können den Datenkatalog mit Metadaten von Diensten wie AWS Lake Formation und Amazon Athena füllen. Diese Services können Datenquellen im Datenkatalog erkennen und registrieren.

  • Daten aus einem vorhandenen Metadaten-Repository füllen – Wenn Sie bereits über einen Metadatenspeicher wie Apache Hive Metastore verfügen, können Sie mit AWS Glue diese Metadaten in den Datenkatalog importieren. Weitere Informationen finden Sie unter Migration between the Hive Metastore and the AWS Glue Data Catalog (Migration zwischen dem Hive Metastore und dem GLUDC) auf GitHub.