Zugreifen auf den Datenkatalog
Sie können den AWS Glue Data Catalog (Datenkatalog) verwenden, um Ihre Daten zu entdecken und zu verstehen. Der Datenkatalog bietet eine konsistente Methode zur Verwaltung von Schemadefinitionen, Datentypen, Speicherorten und anderen Metadaten. Sie können mit den folgenden Methoden auf den Datenkatalog zugreifen:
AWS Glue-Konsole: Sie können über die AWS Glue-Konsole, eine webbasierte Benutzeroberfläche, auf den Datenkatalog zugreifen und ihn verwalten. Über die Konsole können Sie Datenbanken, Tabellen und die zugehörigen Metadaten durchsuchen sowie Metadatendefinitionen erstellen, aktualisieren und löschen.
AWS-Glue-Crawler: Crawler sind Programme, die Ihre Datenquellen automatisch scannen und den Datenkatalog mit Metadaten füllen. Sie können Crawler erstellen und ausführen, um Daten aus verschiedenen Quellen wie Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon CloudWatch und JDBC-kompatiblen relationalen Datenbanken wie MySQL und PostgreSQL sowie mehreren nicht von AWS stammende Quellen wie Snowflake und Google BigQuery zu erfassen und zu katalogisieren.
AWS Glue-APIs: Sie können mithilfe der AWS Glue-APIs programmgesteuert auf den Datenkatalog zugreifen. Mit diesen APIs können Sie programmgesteuert mit dem Datenkatalog interagieren, was die Automatisierung und Integration mit anderen Anwendungen und Diensten ermöglicht.
-
AWS Command Line Interface (AWS CLI): Sie können AWS CLI verwenden, um über die Befehlszeile auf den Datenkatalog zuzugreifen und ihn zu verwalten. Die CLI bietet Befehle zum Erstellen, Aktualisieren und Löschen von Metadatendefinitionen sowie zum Abfragen und Abrufen von Metadateninformationen.
-
Integration mit anderen AWS-Diensten: Der Datenkatalog lässt sich in verschiedene andere AWS-Dienste integrieren, sodass Sie auf die im Katalog gespeicherten Metadaten zugreifen und diese nutzen können. Beispielsweise können Sie Amazon Athena verwenden, um Datenquellen anhand der Metadaten im Datenkatalog abzufragen, und AWS Lake Formation verwenden, um den Datenzugriff und die Governance für die Datenkatalogressourcen zu verwalten.
Themen
Herstellen einer Verbindung zum Datenkatalog mit dem AWS Glue-Iceberg-REST-Endpunkt
Herstellen einer Verbindung zum Datenkatalog mit dem REST-Erweiterungsendpunkt von AWS Glue Iceberg
Herstellen einer Verbindung mit Datenkatalog über eine eigenständige Spark-Anwendung
Zuordnen von Daten zwischen Amazon Redshift und Apache Iceberg
Überlegungen und Einschränkungen bei Verwendung der REST-Katalog-APIs von AWS Glue Iceberg