Datenerkennung und Katalogisierung in AWS Glue - AWS Glue

Datenerkennung und Katalogisierung in AWS Glue

AWS Glue Data Catalog ist ein zentrales Repository, das Metadaten zu den Datensätzen Ihres Unternehmens speichert. Es ein Index für die Speicherort-, Schema- und Laufzeitmetriken Ihrer Datenquellen. Die Metadaten werden in Metadatentabellen gespeichert, wobei jede Tabelle einen einzigen Datenspeicher darstellt.

Sie können den Datenkatalog mithilfe eines Crawlers auffüllen, der Ihre Datenquellen automatisch scannt und Metadaten extrahiert. Ein Crawler kann eine Verbindung zu internen (AWS-basierten) Datenquellen und Datenquellen außerhalb von AWS aufbauen.

Weitere Informationen zu den unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen für Crawling.

Sie können Tabellen im Datenkatalog auch manuell erstellen, indem Sie die Tabellenstruktur, das Schema und die Partitionierungsstruktur entsprechend Ihren spezifischen Anforderungen definieren.

Weitere Informationen zum manuellen Erstellen von Metadatentabellen finden Sie unter Manuelles Definieren von Metadaten.

Sie können die Informationen im Datenkatalog verwenden, um Ihre ETL-Aufträge zu erstellen und zu überwachen. Der Datenkatalog lässt sich in andere AWS-Analysedienste integrieren und bietet eine einheitliche Ansicht der Datenquellen, was die Verwaltung und Analytik von Daten erleichtert.

  • Amazon Athena: Speichern Sie Tabellenmetadaten im Datenkatalog für die Amazon-S3-Daten und fragen Sie sie mit SQL ab.

  • AWS Lake Formation: Definieren und verwalten Sie detaillierte Datenzugriffsrichtlinien zentral und überprüfen Sie den Datenzugriff.

  • Amazon EMR: Greifen Sie auf die im Datenkatalog definierten Datenquellen für die Verarbeitung von Big Data zu.

  • Amazon SageMaker AI: Erstellen, trainieren und implementieren Sie schnell und sicher Machine-Learning-Modelle.

Hauptmerkmale des Datenkatalogs

Im Folgenden sind die wichtigsten Aspekte des Datenkatalogs aufgeführt.

Metadaten-Repository

Der Datenkatalog fungiert als zentrales Metadaten-Repository, in dem Informationen über den Speicherort, das Schema und die Eigenschaften Ihrer Datenquellen gespeichert werden. Diese Metadaten sind in Datenbanken und Tabellen organisiert, ähnlich wie ein herkömmlicher relationaler Datenbankkatalog.

Automatische Auffindbarkeit von Daten

AWS-Glue-Crawler kann neue oder aktualisierte Datenquellen automatisch erkennen und katalogisieren, wodurch der Aufwand für die manuelle Metadatenverwaltung reduziert und sichergestellt wird, dass Ihr Datenkatalog auf dem neuesten Stand bleibt. Durch die Katalogisierung Ihrer Datenquellen erleichtert der Datenkatalog Benutzern und Anwendungen das Auffinden und Verstehen der in Ihrem Unternehmen verfügbaren Datenbestände und fördert so die Wiederverwendung von Daten und die Zusammenarbeit.

Der Datenkatalog unterstützt eine Vielzahl von Datenquellen, darunter Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive und mehr. Mithilfe von AWS-Glue-Crawler können Metadaten aus diesen Quellen automatisch abgeleitet und gespeichert werden.

Weitere Informationen finden Sie unter Verwenden von Crawlern zum Auffüllen des Datenkatalogs .

Schemaverwaltung

Der Datenkatalog erfasst und verwaltet automatisch das Schema Ihrer Datenquellen, einschließlich Schemainferenz, Weiterentwicklung und Versionsverwaltung. Sie können das Schema und die Partitionen im Datenkatalog mithilfe von AWS Glue-ETL-Aufträgen aktualisieren.

Tabellenoptimierung

Um die Leseleistung von AWS-Analyseservices wie Amazon Athena, Amazon EMR und AWS Glue-ETL-Aufträgen zu verbessern, unterstützt der Datenkatalog die verwaltete Verdichtung (ein Prozess, der kleine Amazon-S3-Objekte zu größeren Objekten verdichtet) für Iceberg-Tabellen im Datenkatalog. Sie können die AWS Glue-Konsole, die AWS Lake Formation-Konsole, die AWS CLI oder die AWS -API verwenden, um die Verdichtung für einzelne Iceberg-Tabellen im Datenkatalog zu aktivieren oder zu deaktivieren.

Weitere Informationen finden Sie unter Optimierung von Iceberg-Tabellen.

Spaltenstatistiken

Sie können Statistiken auf Spaltenebene für Datenkatalog-Tabellen in Datenformaten wie Parquet, ORC, JSON, ION, CSV und XML berechnen, ohne zusätzliche Datenpipelines einrichten zu müssen. Spaltenstatistiken helfen Ihnen dabei, Datenprofile zu verstehen, indem sie Einblicke in die Werte innerhalb einer Spalte gewinnen. Der Datenkatalog unterstützt die Generierung von Statistiken für Spaltenwerte wie Minimalwert, Maximalwert, Gesamt-Nullwerte, Gesamtzahl unterschiedlicher Werte, durchschnittliche Länge von Werten und Gesamtzahl des Vorkommens von wahren Werten.

Weitere Informationen finden Sie unter Optimieren der Abfrageleistung mithilfe von Spaltenstatistiken.

Datenherkunft

Der Datenkatalog speichert alle Transformationen und Operationen, die an Ihren Daten durchgeführt wurden, und liefert so Informationen zur Datenherkunft. Diese Informationen zur Herkunft sind für die Prüfung, Compliance und für das Verständnis der Herkunft der Daten von Nutzen.

Integration in andere AWS-Services

Der Datenkatalog lässt sich nahtlos in andere AWS-Services wie AWS Lake Formation, Amazon Athena, Amazon Redshift Spectrum und Amazon EMR integrieren. Diese Integration ermöglicht es Ihnen, Daten aus verschiedenen Datenspeichern über eine einzige, einheitliche Metadatenebene abzufragen und zu analysieren.

Sicherheit mit Zugriffskontrolle

AWS Glue lässt sich in AWS Lake Formation integrieren, um eine detaillierte Zugriffskontrolle für Datenkatalogressourcen zu unterstützen. So können Sie Berechtigungen verwalten und den Zugriff auf Ihre Datenbestände gemäß den Richtlinien und Anforderungen Ihres Unternehmens sichern. AWS Glue lässt sich in AWS Key Management Service (AWS KMS) integrieren, um die im Datenkatalog gespeicherten Metadaten zu verschlüsseln.