复制 S3 表
Amazon S3 表类数据存储服务支持自动复制存储在 Amazon S3 表存储桶中的 Apache Iceberg 表。复制目标可以位于同一 AWS 区域、跨多个 AWS 区域、位于同一账户或者位于其他 AWS 账户。通过为表配置复制,您可以跨多个位置维护数据的只读副本。您可以使用副本来提高数据可用性、满足合规要求和提升分布式应用程序的访问性能。
S3 表类数据存储服务复制通过按照与源表相同的顺序将所有表更新(包括快照、元数据和数据文件)提交到目标表来保持数据一致性。
何时使用 S3 表类数据存储服务复制
您可以将 S3 表类数据存储服务复制用于以下目的:
-
最大限度降低延迟:如果客户位于两个地理位置,您可以通过在距离用户地理位置更近的 AWS 区域维护只读副本,来最大限度降低访问表时的延迟。
-
监管合规:您可以在特定地理位置或 AWS 账户中维护只读副本,这可能有助于您满足某些监管或合规要求。您可以将复制目标表存储桶配置为使用与源不同的 AWS KMS 密钥来加密表。
-
集中式分析:如果您的数据分布在多个 AWS 区域,您可以将区域特定数据集复制到一个集中的区域,以进行统一报告、跨区域分析和机器学习模型训练。这样就无需跨区域查询数据或构建自定义数据聚合管道。
-
测试和开发环境:您可以在单独的 AWS 账户或表存储桶中创建生产表的只读副本,以便为开发和 QA 团队提供真实的测试数据。这样就可以将测试工作负载与生产系统隔离,同时确保测试环境拥有最新的类生产环境数据,而无需进行手动导出或数据同步流程。
功能
S3 表类数据存储服务复制提供了以下功能。
适用于 S3 表类数据存储服务的只读副本
S3 表类数据存储服务复制会跨表存储桶创建 Apache Iceberg 表的只读副本。您可以使用任何兼容 Iceberg 的引擎独立查询副本。
自动维护的副本
S3 表类数据存储服务复制会自动维护副本表。复制通常会在源更新后的几分钟内更新副本。S3 表类数据存储服务会按照与源表相同的顺序提交所有更新以保持一致性。
到多个目标的复制
您可以将同一个表复制到多个目标表存储桶。复制目标可以位于同一 AWS 区域、跨多个 AWS 区域、位于同一 AWS 账户或者位于其他 AWS 账户。
独立快照保留
副本表的快照过期时间独立于源表,这使您可以在需要时为副本表设置不同的保留期。例如,您可以将源表配置为保留快照 30 天,同时为副本表设置 90 天的保留期。如果您在副本上配置了更长的保留期,那么在源中过期的快照在副本中仍然可用和可查询。此配置为历史分析提供了扩展的时间旅行功能。
在成本较低的存储层中维护副本表
您可以将目标表存储桶配置为使用 S3 Intelligent-Tiering 存储类别,该类别可根据访问模式自动优化存储成本,而不会影响性能或产生运营开销。S3 Intelligent-Tiering 非常适合访问频率可能较低的副本表。
有关 S3 表类数据存储服务复制的更多信息,请参阅以下主题。