完整資料遷移 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

完整資料遷移

完整資料遷移會重新建立資料檔案和中繼資料。相較於就地遷移,此方法需要更長的時間,並且需要額外的運算資源。不過,完整資料遷移提供許多改善資料表品質的機會,並最佳化資料儲存和存取模式。

在完整資料遷移期間,您可以執行數個有益的操作,例如確保完整性和正確性的資料驗證、更符合目前需求的結構描述修改,以及改善查詢效能的分割區策略調整。您也可以重新排序資料以最佳化常見存取模式、實作 Iceberg 隱藏分割以提高查詢效率,並視需要執行檔案格式轉換 (例如,從 CSV 轉換到 Parquet)。

這些功能讓完整資料遷移非常適合轉換為 Iceberg 格式,以及全面精簡和最佳化資料儲存策略。雖然完整資料遷移需要更多時間和資源,但資料品質、組織和查詢效能的改善可以提供長期利益。若要實作完整資料遷移,請使用下列其中一個選項:

  • 在 Spark CREATE TABLE ... AS SELECT (Amazon EMR 或) 或 Athena 中使用 (CTAS AWS Glue) 陳述式。您可以使用 和 子句來設定新 Iceberg PARTITIONED BY資料表的分割區規格和TBLPROPERTIES資料表屬性。您可以根據您的需求變更新資料表的結構描述和分割,而不是從來源資料表繼承它們。

  • 從來源資料表讀取,並在 Amazon EMR 或 上使用 Spark 將資料寫入為新的 Iceberg 資料表 AWS Glue。如需詳細資訊,請參閱 Iceberg 文件中的建立資料表