Zusammenfassung der Migrationsoptionen - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Zusammenfassung der Migrationsoptionen

In dieser Tabelle sind die wichtigsten Merkmale und Überlegungen für jede Migrationsoption zusammengefasst.

Merkmal

Migration vor Ort

Snapshot

Migration vor Ort

migrate

Vollständige Datenmigration

CTAS oder (TABELLE ERSTELLEN + EINFÜGEN)

Verbesserungen des Datenlayouts im Rahmen des Migrationsprozesses

  • Daten neu sortieren

Nein

Nein

Ja

  • Ändern Sie die Partitionierung (z. B. um die versteckte Iceberg-Partitionierung zu verwenden)

Nein

Nein

Ja

  • Ändern Sie das Tabellenschema

Nein

Nein

Ja

  • Optimieren Sie die Dateigröße

Nein

Nein

Ja

  • Überprüfen Sie das Schema vorhandener Daten, bevor Sie die Daten hinzufügen

Nein

Nein

Ja

Unterstützte Dateiformate

Parquet, Avro, ORC

Parkett, Avro, ORC

Parkett, Avro, ORC, JSON, CSV

Ersatz der Quelltabelle durch eine Iceberg-Tabelle

Nein

(erstellt eine neue Tabelle, aber mit zusätzlichen Schritten können Sie die Quelltabelle ersetzen)

Ja

(erstellt eine Backup-Tabelle und ersetzt die Quelltabelle durch eine Iceberg-Tabelle)

Nein

(erstellt eine neue Tabelle)

Auswirkung auf die Quelltabelle

  • Operationen zum Löschen von Dateien in der Iceberg-Tabelle (expire_snapshot Operationen, Löschen einer Tabelle beim Löschen)

Korrumpiert die Quelltabelle

Korrumpiert die Backup-Tabelle

Sicher, Quelle nicht betroffen

Auswirkung auf den Eisberg-Tisch

  • Auswirkung, wenn Quelltabellendateien entfernt werden

Korrumpiert die Iceberg-Tabelle

Korrumpiert die Eisberg-Tabelle

Keine Auswirkungen auf die Iceberg-Tabelle

  • Auswirkung, wenn neue Dateien am Speicherort der Quelltabelle hinzugefügt werden

In der neuen Tabelle nicht sichtbar

(Partition muss mit integriert werdenadd_files)

Auf der neuen Tabelle nicht sichtbar

(Partition muss mit integriert werdenadd_files)

Auf der neuen Tabelle nicht sichtbar

(Ich brauche INSERT INTO die neue Tabelle)

Kosten

Niedrig

Niedrig

Höher (vollständige Datenumschreibung)

Geschwindigkeit der Migration

Schnell

Schnell

Langsamer

Kann für die Migration zu Amazon S3 S3-Tabellen verwendet werden

Nein

Nein

Ja

Erfordert manuelles DDL

Nein

(Schema und Partitionen werden aus der Quelltabelle kopiert)

Nein

(Schema und Partitionen werden aus der Quelltabelle kopiert)

Wenn Sie CTAS verwenden, müssen Sie nur die Partitionierung angeben

Beste Verwendung

Schnelle Migration ohne Umschreiben von Daten, sodass Hive und Iceberg für Tests oder schrittweise Umstellung side-by-side verwendet werden können.

Ersetzen einer Hive-Tabelle an Ort und Stelle, ohne Daten neu zu schreiben, wenn eine sofortige Umstellung akzeptabel ist.

Vollständige Iceberg-Optimierung mit Datenumschreibung. Ideal für die Neugestaltung von Partitionen oder Schemas oder für die Verbesserung von Layout und Leistung. Immer empfehlenswert, wenn möglich.