Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Vollständige Datenmigration
Bei der vollständigen Datenmigration werden sowohl die Datendateien als auch die Metadaten neu erstellt. Dieser Ansatz dauert länger und erfordert zusätzliche Rechenressourcen im Vergleich zur direkten Migration. Eine vollständige Datenmigration bietet jedoch erhebliche Möglichkeiten zur Verbesserung der Tabellenqualität und zur Optimierung der Datenspeicher- und Zugriffsmuster.
Während der vollständigen Datenmigration können Sie verschiedene nützliche Operationen durchführen, z. B. die Datenvalidierung zur Sicherstellung der Integrität und Richtigkeit, Schemaänderungen, um den aktuellen Anforderungen besser gerecht zu werden, und Anpassungen der Partitionsstrategie zur Verbesserung der Abfrageleistung. Sie können Daten auch neu sortieren, um allgemeine Zugriffsmuster zu optimieren, die versteckte Iceberg-Partitionierung implementieren, um die Abfrageeffizienz zu erhöhen, und bei Bedarf eine Dateiformatkonvertierung (z. B. von CSV nach Parquet) durchführen.
Diese Funktionen machen die vollständige Datenmigration ideal für die Umstellung auf das Iceberg-Format und für die umfassende Verfeinerung und Optimierung Ihrer Datenspeicherstrategie. Obwohl eine vollständige Datenmigration im Vorfeld mehr Zeit und Ressourcen erfordert, können die daraus resultierenden Verbesserungen der Datenqualität, Organisation und Abfrageleistung langfristige Vorteile bieten. Verwenden Sie eine der folgenden Optionen, um eine vollständige Datenmigration zu implementieren:
-
Verwenden Sie die
CREATE TABLE ... AS SELECT
(CTAS) -Anweisung in Spark (auf Amazon EMR oder AWS Glue) oder in Athena. Sie können die Partitionsspezifikation und die Tabelleneigenschaften für die neue Iceberg-Tabelle mithilfe der UND-Klauseln festlegen. PARTITIONED BY
TBLPROPERTIES
Sie können das Schema und die Partitionierung für die neue Tabelle Ihren Bedürfnissen entsprechend ändern, anstatt sie von der Quelltabelle zu erben. -
Lesen Sie aus der Quelltabelle und schreiben Sie die Daten als neue Iceberg-Tabelle, indem Sie Spark auf Amazon EMR verwenden oder. AWS Glue Weitere Informationen finden Sie in der Iceberg-Dokumentation unter Tabelle erstellen
.