Datenermittlung und Katalogisierung in AWS Glue - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenermittlung und Katalogisierung in AWS Glue

Das AWS Glue Data Catalog ist ein zentrales Repository, das Metadaten zu den Datensätzen Ihrer Organisation speichert. Es ein Index für die Speicherort-, Schema- und Laufzeitmetriken Ihrer Datenquellen. Die Metadaten werden in Metadatentabellen gespeichert, wobei jede Tabelle einen einzigen Datenspeicher darstellt.

Sie können den Datenkatalog mithilfe eines Crawlers auffüllen, der Ihre Datenquellen automatisch scannt und Metadaten extrahiert. Ein Crawler kann eine Verbindung zu internen (AWS-basierten) Datenquellen und Datenquellen außerhalb von AWS aufbauen.

Weitere Informationen zu den unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen für Crawling.

Sie können Tabellen im Datenkatalog auch manuell erstellen, indem Sie die Tabellenstruktur, das Schema und die Partitionierungsstruktur entsprechend Ihren spezifischen Anforderungen definieren.

Weitere Informationen zum manuellen Erstellen von Metadatentabellen finden Sie unter Manuelles Definieren von Metadaten.

Sie können die Informationen im Datenkatalog verwenden, um Ihre ETL-Aufträge zu erstellen und zu überwachen. Der Datenkatalog lässt sich in andere AWS Analysedienste integrieren und bietet eine einheitliche Ansicht der Datenquellen, was die Verwaltung und Analyse von Daten erleichtert.

  • Amazon Athena: Speichern Sie Tabellenmetadaten im Datenkatalog für die Amazon-S3-Daten und fragen Sie sie mit SQL ab.

  • AWS Lake Formation — Definieren und verwalten Sie zentral detaillierte Datenzugriffsrichtlinien und überprüfen Sie den Datenzugriff.

  • Amazon EMR: Greifen Sie auf die im Datenkatalog definierten Datenquellen für die Verarbeitung von Big Data zu.

  • Amazon SageMaker AI — Schnelles und sicheres Erstellen, Trainieren und Implementieren von Modellen für maschinelles Lernen.

Hauptmerkmale des Datenkatalogs

Im Folgenden sind die wichtigsten Aspekte des Datenkatalogs aufgeführt.

Metadaten-Repository

Der Datenkatalog fungiert als zentrales Metadaten-Repository, in dem Informationen über den Speicherort, das Schema und die Eigenschaften Ihrer Datenquellen gespeichert werden. Diese Metadaten sind in Datenbanken und Tabellen organisiert, ähnlich wie ein herkömmlicher relationaler Datenbankkatalog.

Automatische Auffindbarkeit von Daten

AWS-Glue-Crawler s kann neue oder aktualisierte Datenquellen automatisch erkennen und katalogisieren, wodurch der Aufwand für die manuelle Metadatenverwaltung reduziert und sichergestellt wird, dass Ihr Datenkatalog erhalten bleibt up-to-date. Durch die Katalogisierung Ihrer Datenquellen erleichtert der Datenkatalog Benutzern und Anwendungen das Auffinden und Verstehen der in Ihrem Unternehmen verfügbaren Datenbestände und fördert so die Wiederverwendung von Daten und die Zusammenarbeit.

Der Datenkatalog unterstützt eine Vielzahl von Datenquellen, darunter Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive und mehr. Mithilfe von AWS-Glue-Crawler s können Metadaten aus diesen Quellen automatisch abgeleitet und gespeichert werden.

Weitere Informationen finden Sie unter Verwenden von Crawlern zum Auffüllen des Datenkatalogs .

Schemaverwaltung

Der Datenkatalog erfasst und verwaltet automatisch das Schema Ihrer Datenquellen, einschließlich Schemainferenz, Weiterentwicklung und Versionsverwaltung. Sie können Ihr Schema und Ihre Partitionen im Datenkatalog mithilfe von AWS Glue ETL-Jobs aktualisieren.

Tabellenoptimierung

Um die Leseleistung von AWS Analysediensten wie Amazon Athena und Amazon EMR sowie AWS Glue ETL-Jobs zu verbessern, bietet der Datenkatalog eine verwaltete Komprimierung (ein Prozess, der kleine Amazon S3 S3-Objekte zu größeren Objekten komprimiert) für Eisberg-Tabellen im Datenkatalog. Sie können die AWS Glue Konsole, AWS Lake Formation Konsole oder AWS API verwenden, um die AWS CLI Komprimierung für einzelne Iceberg-Tabellen, die sich im Datenkatalog befinden, zu aktivieren oder zu deaktivieren.

Weitere Informationen finden Sie unter Optimierung von Iceberg-Tabellen.

Spaltenstatistiken

Sie können Statistiken auf Spaltenebene für Datenkatalog-Tabellen in Datenformaten wie Parquet, ORC, JSON, ION, CSV und XML berechnen, ohne zusätzliche Datenpipelines einrichten zu müssen. Spaltenstatistiken helfen Ihnen dabei, Datenprofile zu verstehen, indem sie Einblicke in die Werte innerhalb einer Spalte gewinnen. Der Datenkatalog unterstützt die Generierung von Statistiken für Spaltenwerte wie Minimalwert, Maximalwert, Gesamt-Nullwerte, Gesamtzahl unterschiedlicher Werte, durchschnittliche Länge von Werten und Gesamtzahl des Vorkommens von wahren Werten.

Weitere Informationen finden Sie unter Optimieren der Abfrageleistung mithilfe von Spaltenstatistiken.

Datenherkunft

Der Datenkatalog speichert alle Transformationen und Operationen, die an Ihren Daten durchgeführt wurden, und liefert so Informationen zur Datenherkunft. Diese Informationen zur Herkunft sind für die Prüfung, Compliance und für das Verständnis der Herkunft der Daten von Nutzen.

Integration mit anderen Diensten AWS

Der Datenkatalog lässt sich nahtlos in andere AWS Dienste wie Amazon Athena AWS Lake Formation, Amazon Redshift Spectrum und Amazon EMR integrieren. Diese Integration ermöglicht es Ihnen, Daten aus verschiedenen Datenspeichern über eine einzige, einheitliche Metadatenebene abzufragen und zu analysieren.

Sicherheit mit Zugriffskontrolle

AWS Glue lässt sich integrieren AWS Lake Formation , um eine differenzierte Zugriffskontrolle für Datenkatalogressourcen zu unterstützen, sodass Sie Berechtigungen verwalten und den Zugriff auf Ihre Datenbestände auf der Grundlage der Richtlinien und Anforderungen Ihres Unternehmens sichern können. AWS Glue lässt sich in AWS Key Management Service (AWS KMS) integrieren, um Metadaten zu verschlüsseln, die im Datenkatalog gespeichert sind.

Materialisierte Ansichten

Der Datenkatalog unterstützt materialisierte Ansichten von Apache Iceberg. Dabei handelt es sich um verwaltete Tabellen, die vorberechnete Ergebnisse von SQL-Abfragen speichern und automatisch aktualisiert werden, wenn sich die zugrunde liegenden Quelldaten ändern. Materialisierte Ansichten vereinfachen Datenumwandlungs-Pipelines und beschleunigen die Abfrageleistung, da redundante Berechnungen vermieden werden.

Sie können materialisierte Ansichten mit Apache Spark SQL in AWS Glue Version 5.1 und höher, Amazon EMR Version 7.12.0 und höher und Amazon Athena erstellen. Der Datenkatalog überwacht automatisch die Apache Iceberg-Quelltabellen und aktualisiert materialisierte Ansichten mithilfe einer verwalteten Recheninfrastruktur. Spark-Engines in AWS Glue, Amazon EMR und Amazon Athena können Abfragen automatisch umschreiben, um materialisierte Ansichten zu verwenden, wenn sie eine bessere Leistung bieten.

Materialisierte Ansichten werden als Apache Iceberg-Tabellen in Amazon S3 S3-Tabellen-Buckets oder Amazon S3 S3-Allzweck-Buckets in Ihrem Konto gespeichert, sodass sie von mehreren Abfrage-Engines aus zugänglich sind. Der Datenkatalog verwaltet alle Aspekte des Lebenszyklus von Materialized Views, einschließlich automatischer Aktualisierungsplanung, inkrementeller Aktualisierungen und Metadatenverwaltung.

Weitere Informationen finden Sie unter Verwenden von materialisierten Ansichten mit AWS Glue und Verwenden von materialisierten Ansichten mit Amazon EMR.