Integration mit anderen AWS-Services - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Integration mit anderen AWS-Services

Sie können zwar AWS-Glue-Crawler-Instanzen verwenden, um den AWS Glue Data Catalog zu füllen, aber es gibt mehrere AWS-Dienste, die sich automatisch in den Katalog integrieren und ihn für Sie füllen. Die folgenden Abschnitte enthalten weitere Informationen zu den spezifischen Anwendungsfällen, die von AWS-Diensten unterstützt werden, die den Datenkatalog füllen können.

AWS Lake Formation

AWS Lake Formation ist ein Service, der das Einrichten eines sicheren Data Lake in AWS vereinfacht. Lake Formation basiert auf AWS Glue. Außerdem teilen sich Lake Formation und AWS Glue den gleichen AWS Glue Data Catalog. Sie können Ihren Amazon-S3-Datenstandort bei Lake Formation registrieren und die Lake Formation-Konsole verwenden, um Datenbanken und Tabellen im AWS Glue-Datenkatalog zu erstellen, Datenzugriffsrichtlinien zu definieren und den Datenzugriff in Ihrem Data Lake von einer zentralen Stelle aus zu überprüfen. Sie können die detaillierte Zugriffskontrolle von Lake Formation verwenden, um Ihre vorhandenen Datenkatalogressourcen und Amazon-S3-Datenstandorte zu verwalten.

Mit Daten, die bei Lake Formation registriert sind, können Sie Datenkatalogressourcen sicher über IAM-Prinzipalen, AWS-Konten, AWS-Unternehmen und Unternehmensbereichen hinweg freigeben.

Weitere Informationen zum Erstellen von Datenkatalogressourcen mit Lake Formation finden Sie unter Erstellen von Datenkatalogtabellen und Datenbanken im AWS Lake Formation-Entwicklerhandbuch.

Amazon Athena

Athena verwendet den Datenkatalog, um Tabellenmetadaten für die Amazon-S3-Daten in Ihrem AWS-Konto zu speichern und abzurufen. Die Tabellenmetadaten teilen der Athena-Abfrage-Engine mit, wie die Daten, die Sie abfragen möchten, gefunden, gelesen und verarbeitet werden sollen.

Sie können den AWS Glue Data Catalog direkt mit Athena-CREATE TABLE-Anweisungen füllen. Sie können das Schema und die Partitionsmetadaten im Datenkatalog manuell definieren und füllen, ohne einen Crawler ausführen zu müssen.

  1. Erstellen Sie in der Athena-Konsole eine Datenbank, in der die Tabellenmetadaten im Datenkatalog gespeichert werden.

  2. Verwenden Sie die CREATE EXTERNAL TABLE-Anweisung, um das Schema Ihrer Datenquelle zu definieren.

  3. Verwenden Sie die PARTITIONED BY-Klausel, um alle Partitionsschlüssel zu definieren, wenn Ihre Daten partitioniert sind.

  4. Verwenden Sie die LOCATION-Klausel, um den Amazon-S3-Pfad anzugeben, in dem Ihre tatsächlichen Datendateien gespeichert werden.

  5. Ausführen der CREATE TABLE-Anweisung.

    Diese Abfrage erstellt die Tabellenmetadaten im Datenkatalog auf der Grundlage Ihres definierten Schemas und Ihrer Partitionen, ohne die Daten tatsächlich zu crawlen.

Sie können die Tabelle in Athena abfragen. Dabei werden die Metadaten aus dem Datenkatalog verwendet, um auf Ihre Datendateien in Amazon S3 zuzugreifen und diese abzufragen.

Weitere Informationen finden Sie unter Erstellen von Datenbanken und Tabellen im Amazon-Athena-Benutzerhandbuch.