Ringkasan opsi migrasi - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ringkasan opsi migrasi

Tabel ini merangkum karakteristik dan pertimbangan utama untuk setiap opsi migrasi.

Fitur

Migrasi di tempat

snapshot

Migrasi di tempat

bermigrasi

Migrasi data lengkap

CTAS atau (BUAT TABELAN+SISIPKAN)

Perbaikan tata letak data sebagai bagian dari proses migrasi

  • Urutkan ulang data

Tidak

Tidak

Ya

  • Ubah partisi (misalnya, untuk menggunakan partisi tersembunyi Iceberg)

Tidak

Tidak

Ya

  • Ubah skema tabel

Tidak

Tidak

Ya

  • Optimalkan ukuran file

Tidak

Tidak

Ya

  • Validasi skema data yang ada sebelum menambahkan data

Tidak

Tidak

Ya

Format file yang didukung

Parket, Avro, ORC

Parket, Avro, ORC

Parket, Avro, ORC, JSON, CSV

Penggantian tabel sumber dengan tabel Iceberg

Tidak

(membuat tabel baru, tetapi dengan langkah-langkah tambahan Anda dapat mengganti tabel sumber)

Ya

(membuat tabel cadangan dan mengganti tabel sumber dengan tabel Iceberg)

Tidak

(membuat tabel baru)

Dampak tabel sumber

  • Operasi penghapusan file pada tabel Iceberg (expire_snapshot operasi, menjatuhkan tabel dengan pembersihan)

Tabel sumber rusak

Merusak tabel cadangan

Aman, sumber tidak terpengaruh

Dampak tabel gunung es

  • Dampak jika file tabel sumber dihapus

Meja Gunung Es Korup

Meja Gunung Es Korup

Tidak berdampak pada tabel Iceberg

  • Dampak jika file baru ditambahkan pada lokasi tabel sumber

Tidak terlihat di meja baru

(perlu menggabungkan partisi denganadd_files)

Tidak terlihat di meja baru

(perlu menggabungkan partisi denganadd_files)

Tidak terlihat di meja baru

(perlu INSERT INTO ke tabel baru)

Biaya

Rendah

Rendah

Lebih tinggi (penulisan ulang data lengkap)

Kecepatan migrasi

Cepat

Cepat

Lebih lambat

Dapat digunakan untuk bermigrasi ke Tabel Amazon S3

Tidak

Tidak

Ya

Membutuhkan DDL manual

Tidak

(skema dan partisi disalin dari tabel sumber)

Tidak

(skema dan partisi disalin dari tabel sumber)

Jika menggunakan CTAS, hanya memerlukan menentukan partisi

Penggunaan terbaik

Migrasi cepat tanpa menulis ulang data, memungkinkan side-by-side penggunaan Hive dan Iceberg untuk pengujian atau transisi bertahap.

Mengganti tabel Hive di tempat tanpa menulis ulang data, ketika peralihan langsung dapat diterima.

Optimalisasi Gunung Es penuh dengan penulisan ulang data. Ideal saat mendesain ulang partisi atau skema, atau meningkatkan tata letak dan kinerja. Selalu direkomendasikan jika memungkinkan.