Den AWS Glue Datenkatalog auffüllen

Sie können den AWS Glue Data Catalog mit den folgenden Methoden auffüllen:

AWS-Glue-Crawler — An AWS-Glue-Crawler kann Datenquellen wie Datenbanken, Data Lakes und Streaming-Daten automatisch erkennen und katalogisieren. Die Crawler sind die gängigste und empfohlene Methode zum Füllen von des Datenkatalogs, weil sie automatisch Metadaten für eine Vielzahl von Datenquellen erkennen und daraus ableiten können.
Manuelles Hinzufügen von Metadaten — Sie können Datenbanken, Tabellen und Verbindungsdetails manuell definieren und sie mithilfe der Konsole, der Lake Formation AWS Glue Formation-Konsole AWS CLI, oder dem Datenkatalog hinzufügen AWS Glue APIs. Die manuelle Eingabe ist nützlich, wenn Sie Datenquellen katalogisieren möchten, die nicht gecrawlt werden können.
Integration mit anderen AWS Diensten — Sie können den Datenkatalog mit Metadaten von Diensten wie Amazon AWS Lake Formation Athena füllen. Diese Services können Datenquellen im Datenkatalog erkennen und registrieren.
Daten aus einem vorhandenen Metadaten-Repository auffüllen — Wenn Sie bereits über einen Metadatenspeicher wie Apache Hive Metastore verfügen, können Sie diese Metadaten in AWS Glue den Datenkatalog importieren. Weitere Informationen finden Sie unter Migration zwischen dem Hive Metastore und dem Hive Metastore. AWS Glue Data Catalog GitHub

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Datenerkennung und Katalogisierung

Mit einem AWS-Glue-Crawler