遷移選項摘要 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

遷移選項摘要

此資料表摘要說明每個遷移選項的主要特性和考量事項。

功能

就地遷移

快照

就地遷移

migrate

完整資料遷移

CTAS 或 (CREATE TABLE + INSERT)

資料配置改善是遷移程序的一部分

  • 重新排序資料

  • 變更分割 (例如,使用 Iceberg 隱藏分割)

  • 變更資料表結構描述

  • 最佳化檔案大小

  • 在新增資料之前驗證現有資料的結構描述

支援的檔案格式

Parquet、Avro、ORC

Parquet、Avro、ORC

Parquet、Avro、ORC、JSON、CSV

Iceberg 資料表取代來源資料表

(建立新的資料表,但您可以使用其他步驟取代來源資料表)

(建立備份資料表並以 Iceberg 資料表取代來源資料表)

(建立新的資料表)

來源資料表影響

  • Iceberg 資料表上的檔案刪除操作 (expire_snapshot 操作、捨棄具有清除的資料表)

損毀來源資料表

Corrupts 備份資料表

安全、來源不受影響

Iceberg 資料表影響

  • 來源資料表檔案移除時的影響

Corrupts Iceberg 資料表

Corrupts Iceberg 資料表

不會影響 Iceberg 資料表

  • 如果在來源資料表位置上新增新的檔案,會影響 。

新資料表上看不到

(需要將分割區與 合併add_files)

新資料表上看不到

(需要將分割區與 合併add_files)

新資料表上看不到

(需要INSERT INTO新資料表)

成本

較高 (完整資料重寫)

遷移速度

快速

快速

較慢

可用於遷移至 Amazon S3 Tables

需要手動 DDL

(從來源資料表複製結構描述和分割區)

(從來源資料表複製結構描述和分割區)

如果使用 CTAS, 只需要指定分割

最佳使用

無需重寫資料的快速遷移,允許side-by-side使用 Hive 和 Iceberg 進行測試或逐步轉換。

可接受立即切換時,在不重寫資料的情況下更換 Hive 資料表。

完整 Iceberg 最佳化與資料重寫。重新設計分割區或結構描述,或改善配置和效能時的理想選擇。如果可能,一律建議。