将现有表迁移到 Iceberg - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将现有表迁移到 Iceberg

本节重点介绍将现有的 Hive 样式表迁移到 Iceberg 格式。它适用于使用传统 Hive 兼容格式的表,例如 Apache Par quet 或 Apache ORC此信息不适用于已经使用现代表格格式的表,例如 Linux Foundation Delta Lake 或 Apache Hudi。

要将当前的 Hive 样式表迁移到 Iceberg 格式,您可以使用就地迁移或完整数据迁移: 

  • 就地迁移是在现有数据文件之上生成 Iceberg 的元数据文件的过程。

  • 完整数据迁移会创建 Iceberg 元数据层,并将现有数据文件从原始表重写到新的 Iceberg 表。

以下各节详细概述了每种迁移方法,包括实施 step-by-step说明和注意事项。有关这些迁移策略的更多信息,请参阅 Iceberg 文档的表迁移部分。

在查看了就地和完整数据迁移方法的详细信息后,请参阅以下两个关键部分,以帮助你制定决策:

  • 选择迁移策略可通过一系列问题和场景提供指导,帮助您根据具体要求和用例确定最合适的迁移方法。

  • 迁移选项摘要提供了一个全面的表格,比较了不同迁移选项的关键特征和注意事项。此表可作为快速参考指南,并提供功能比较,以帮助您了解方法之间的技术权衡。