完整数据迁移 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

完整数据迁移

完整数据迁移会重新创建数据文件和元数据。与就地迁移相比,这种方法需要更长的时间,并且需要更多的计算资源。但是,完整数据迁移为提高表格质量和优化数据存储和访问模式提供了重要机会。

在完整数据迁移期间,您可以执行多项有益的操作,例如数据验证以确保完整性和正确性,修改架构以更好地满足当前要求,以及调整分区策略以提高查询性能。您还可以对数据进行重新排序以优化常见的访问模式,实现 Iceberg 隐藏分区以提高查询效率,并根据需要执行文件格式转换(例如,从 CSV 到 Parquet)。

这些功能使完整数据迁移非常适合过渡到 Iceberg 格式以及全面完善和优化数据存储策略。尽管完整数据迁移需要更多的前期时间和资源,但由此带来的数据质量、组织和查询性能的改善可以带来长期的好处。要实现完整数据迁移,请使用以下选项之一:

  • 在 SparkCREATE TABLE ... AS SELECT(亚马逊 EMR AWS Glue或)或 A t hena 中使用 (CTAS) 声明。您可以使用和子TBLPROPERTIES句为新 Iceberg 表设置分区规格PARTITIONED BY和表属性。您可以根据需要更改新表的架构和分区,而不必从源表继承它们。

  • 使用 Amazon EM AWS Glue R 上的 Spark 或者,从源表中读取数据并将数据写成新的 Iceberg 表。有关更多信息,请参阅 Iceberg 文档中的创建表