Umwandlung von halbstrukturierten Schemas in relationale Schemas mit AWS Glue - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Umwandlung von halbstrukturierten Schemas in relationale Schemas mit AWS Glue

Es ist üblich, semistrukturierte Daten in relationale Tabellen umzuwandeln. Konzeptionell betrachtet reduzieren Sie ein hierarchisches Schema auf ein relationales Schema. AWS Glue kann diese Konvertierung für Sie durchführen. on-the-fly

Semistrukturierte Daten enthalten in der Regel Markups zur Identifizierung von Entitäten innerhalb der Daten. Sie können verschachtelte Datenstrukturen ohne festes Schema umfassen. Weitere Informationen zu semistrukturierten Daten finden Sie im Wikipedia-Artikel zu semistrukturierten Daten.

Relationale Daten werden durch Tabellen repräsentiert, die aus Zeilen und Spalten bestehen. Die Beziehungen zwischen Tabellen können durch eine Beziehung zwischen Primärschlüssel (PK) und Fremdschlüssel (FK) dargestellt werden. Weitere Informationen finden Sie im Wikipedia-Artikel zu relationalen Datenbanken.

AWS Glue verwendet Crawler, um Schemas für halbstrukturierte Daten abzuleiten. Es wandelt die Daten dann mit einem ETL-Auftrag (Extract, Transform and Load) in ein relationales Schema um. Sie können beispielsweise JSON-Daten von Quelldateien aus Amazon Simple Storage Service (Amazon S3) in Amazon Relational Database Service (Amazon RDS)-Tabellen parsen. Verstehen wie AWS Glue Der Umgang mit den Unterschieden zwischen Schemas kann Ihnen helfen, den Transformationsprozess zu verstehen.

Dieses Diagramm zeigt, wie AWS Glue wandelt ein halbstrukturiertes Schema in ein relationales Schema um.

Ablauf, der die Umwandlung eines semistrukturierten in ein relationales Schema zeigt.

Das Diagramm veranschaulicht folgende Vorgänge:

  • Der Einzelwert A wird direkt in eine relationale Spalte umgewandelt.

  • Das Wertepaar B1 und B2 wird in zwei relationale Spalten umgewandelt.

  • Die Struktur C, mit den untergeordneten Elementen X und Y, wird in zwei relationale Spalten umgewandelt.

  • Array D[] wird in eine relationale Spalte mit einem Fremdschlüssel (FK) umgewandelt, der auf eine andere relationale Tabelle verweist. Zusammen mit einem Primärschlüssel (PK) verfügt die zweite relationale Tabelle über Spalten, die den Offset und Wert der Elemente im Array enthalten.