將現有資料表遷移至 Iceberg - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將現有資料表遷移至 Iceberg

本節著重於將您現有的 Hive 樣式資料表遷移至 Iceberg 格式。它適用於使用傳統 Hive 相容格式的資料表,例如 Apache ParquetApache ORC。此資訊不適用於已使用現代資料表格式的資料表,例如 Linux Foundation Delta Lake 或 Apache Hudi。

若要將目前的 Hive 樣式資料表遷移至 Iceberg 格式,您可以使用就地或完整資料遷移: 

  • 就地遷移是在現有資料檔案上產生 Iceberg 中繼資料檔案的程序。

  • 完整資料遷移會建立 Iceberg 中繼資料層,也會將現有資料檔案從原始資料表重寫至新的 Iceberg 資料表。

以下各節提供每個遷移方法的詳細概觀,包括step-by-step說明和實作的考量。如需這些遷移策略的詳細資訊,請參閱 Iceberg 文件的資料表遷移一節。

在您檢閱就地和完整資料遷移方法的詳細資訊後,請參閱下列兩個重要章節,以協助您的決策程序:

  • 選擇遷移策略可透過一系列問題和案例提供指引,協助您根據您的特定需求和使用案例來判斷最適合的遷移方法。

  • 遷移選項摘要提供完整的資料表,可比較不同遷移選項的關鍵特性和考量事項。此資料表可做為快速參考指南,並提供功能比較,協助您了解方法之間的技術取捨。