Memilih strategi migrasi - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memilih strategi migrasi

Saat beralih ke format Iceberg, pilihan antara migrasi di tempat dan migrasi penuh sangat penting. Untuk menentukan pendekatan yang paling cocok untuk kebutuhan spesifik Anda, pertimbangkan pertanyaan dan rekomendasi berikut:

Pertanyaan Rekomendasi

Apa format file data (misalnya, CSV atau Apache Parquet)?

  • Pertimbangkan migrasi di tempat jika format file tabel Anda adalah Parket, ORC, atau Avro.

  • Untuk format lain seperti CSV, JSON, dan sebagainya, gunakan migrasi data lengkap.

Apakah Anda ingin memperbarui atau mengkonsolidasikan skema tabel?

  • Jika Anda ingin mengembangkan skema tabel dengan menggunakan kemampuan asli Iceberg, pertimbangkan migrasi di tempat. Misalnya, Anda dapat mengganti nama kolom setelah migrasi. (Skema dapat diubah di lapisan metadata Iceberg.)

  • Jika Anda ingin menghapus seluruh kolom karena tidak lagi diperlukan, kami sarankan Anda menggunakan migrasi data lengkap.

Apakah tabel akan mendapat manfaat dari mengubah strategi partisi?

  • Jika pendekatan partisi Iceberg memenuhi persyaratan Anda (misalnya, data baru disimpan dengan menggunakan tata letak partisi baru sementara partisi yang ada tetap apa adanya), pertimbangkan migrasi di tempat.

  • Jika Anda ingin menggunakan partisi tersembunyi di tabel Anda, pertimbangkan migrasi data lengkap. Untuk informasi selengkapnya tentang partisi tersembunyi, lihat bagian Praktik terbaik.

Apakah tabel akan mendapat manfaat dari menambahkan atau mengubah strategi urutan pengurutan?

  • Menambahkan atau mengubah urutan data Anda memerlukan penulisan ulang kumpulan data. Dalam hal ini, pertimbangkan untuk menggunakan migrasi data lengkap.

  • Untuk tabel besar yang sangat mahal untuk menulis ulang semua partisi tabel, pertimbangkan untuk menggunakan migrasi di tempat dan menjalankan pemadatan (dengan pengurutan diaktifkan) untuk partisi yang paling sering diakses.

Apakah tabel memiliki banyak file kecil?

  • Menggabungkan file kecil menjadi file yang lebih besar memerlukan penulisan ulang kumpulan data. Dalam hal ini, pertimbangkan untuk menggunakan migrasi data lengkap.

  • Untuk tabel besar yang sangat mahal untuk menulis ulang semua partisi tabel, pertimbangkan untuk menggunakan migrasi di tempat dan menjalankan pemadatan (dengan pengurutan diaktifkan) untuk partisi yang paling sering diakses.