Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Unverschachtelung und Datenpartitionierung von Schemas
Bei der Arbeit mit NoSQL-Datenquellen wie DynamoDB und SaaS-Anwendungen stellen Daten oft besondere Herausforderungen für die Analyse dar:
-
Datensätze in derselben Tabelle können ein anderes Schema haben.
-
Verschachtelte Datensätze innerhalb derselben Tabelle können unterschiedlich dargestellt werden.
-
Komplexe verschachtelte Strukturen wie Zuweisungen und Arrays müssen für effiziente Abfragen transformiert werden.
-
Eine optimale Datenorganisation ist erforderlich, um eine Abfrageleistung in großem Maßstab sicherzustellen
AWS Glue Zero-ETL-Integrationen lösen diese Herausforderungen mit zwei leistungsstarken Funktionen:
-
Aufheben von Schemaverschachtelungen: Vereinfacht komplexe verschachtelte Datenstrukturen automatisch in analysefreundliche Formate. Dabei stehen konfigurierbare Stufen zum Aufheben der Verschachtelung zur Verfügung, um ein Gleichgewicht zwischen der Beibehaltung der Datenstruktur und der Optimierung zur Vereinfachung der Abfragen zu finden.
-
Datenpartitionierung: Organisiert Daten anhand bestimmter Spalten oder zeitbasierter Dimensionen in logischen Partitionen. Dadurch wird die Abfrageleistung verbessert und die Kosten werden gesenkt, indem das Bereinigen von Partitionen während der Abfrageausführung aktiviert wird.
Um solche Datenquellen effektiv abzufragen, bietet AWS Glue Zero-ETL out-of-the-box Schemabehandlungs- und Partitionierungsschemata für Quelldaten, die in der Glue-Zieldatenbank repliziert werden. AWS Über die CreateIntegrationTableProperty API können Sie für jede Tabelle Einstellungen zur Entschachtelung und Partitionierung von Schemas konfigurieren, sodass Sie genau steuern können, wie Daten für Analyse-Workloads strukturiert und organisiert werden.
Standardverhalten zum Aufheben von Verschachtelungen und für Partitionierungen
-
AWS Glue Zero-ETL ist standardmäßig auf FULL Unnest gesetzt, wenn keine Unnesting-Optionen für die Zieltabelle bereitgestellt werden
-
AWS Glue Zero-ETL verwendet standardmäßig die Bucket-Partitionierung, wenn keine für die Zieltabelle angegeben PartitionSpec sind