選擇遷移策略 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

選擇遷移策略

轉換為 Iceberg 格式時,就地遷移和完全遷移之間的選擇至關重要。若要判斷最適合您特定需求的方法,請考慮下列問題和建議:

問題 建議

什麼是資料檔案格式 (例如 CSV 或 Apache Parquet)?

  • 如果您的資料表檔案格式是 Parquet、ORC 或 Avro,請考慮就地遷移。

  • 對於其他格式,例如 CSV、JSON 等,請使用完整資料遷移。

您要更新或合併資料表結構描述嗎?

  • 如果您想要使用 Iceberg 原生功能來發展資料表結構描述,請考慮就地遷移。例如,您可以在遷移後重新命名資料欄。(結構描述可以在 Iceberg 中繼資料層中變更。)

  • 如果您想要移除整個資料欄,因為不再需要它們,我們建議您使用完整資料遷移。

資料表是否會受益於變更分割區策略?

  • 如果 Iceberg 的分割方法符合您的需求 (例如,使用新的分割區配置存放新資料,同時現有分割區保持不變),請考慮就地遷移。

  • 如果您想要在資料表中使用隱藏的分割區,請考慮完整資料遷移。如需隱藏分割區的詳細資訊,請參閱最佳實務一節。

資料表是否會受益於新增或變更排序順序策略?

  • 新增或變更資料的排序順序需要重寫資料集。在這種情況下,請考慮使用完整資料遷移。

  • 對於重寫所有資料表分割區的成本過高的大型資料表,請考慮使用就地遷移,並對最常存取的分割區執行壓縮 (啟用排序)。

資料表是否有許多小型檔案?

  • 將小型檔案合併為較大的檔案需要重寫資料集。在這種情況下,請考慮使用完整資料遷移。

  • 對於重寫所有資料表分割區的成本過高的大型資料表,請考慮使用就地遷移,並對最常存取的分割區執行壓縮 (啟用排序)。