在中创建 Amazon S3 表格目录 AWS Glue Data Catalog - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在中创建 Amazon S3 表格目录 AWS Glue Data Catalog

Amazon S3 表类数据存储服务提供专门针对分析工作负载进行优化的 S3 存储,可提高查询性能,同时降低成本。S3 表类数据存储服务中的数据存储在新的存储桶类型中:表存储桶,它将表存储为子资源。S3 表内置支持 Apache Iceberg 标准,让您可以使用 Apache Spark 等常用查询引擎轻松查询 Amazon S3 表类数据存储服务存储桶中的表格数据。

您可以将 Amazon S3 表存储桶和表与 AWS Glue Data Catalog (数据目录)集成,并通过 Lake Formation 控制台或使用服务 APIs将该目录注册为 Lake Formation 数据位置。当您的组织在 Data Catalog 中管理数据并将向 Lake Formation 注册数据位置时,您可以使用 Lake Formation 来控制对数据集的访问。

您可以使用基于标签的访问控制和命名的资源方法在联合数据库上应用 Lake Formation 权限,并在多个 AWS 账户 Organizations 和组织单位之间共享这些权限(OUs)。 AWS 您也可以直接与其他账户的 IAM 主体共享联合数据库。

有关更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的将 Amazon S3 表类数据存储服务与 AWS 分析服务配合使用

Data Catalog 和 Lake Formation 集成的工作原理

当您将 S3 表目录与 Data Catalog 和 Lake Formation 集成时, AWS Glue 服务会在您的账户中特定于您的 AWS 区域的默认数据目录中创建一个名为 s3tablescatalog 的联合目录。该集成按以下方式映射您的账户和联合目录 AWS 区域 下的所有 Amazon S3 表存储桶资源:

  • Amazon S3 表类数据存储服务存储桶成为 Data Catalog 中的多级目录。

  • 关联的 Amazon S3 命名空间在 Data Catalog 中注册为数据库。

  • 表存储桶中的 Amazon S3 表类数据存储服务成为 Data Catalog 中的表。

S3 表和之间的对象映射 AWS Glue Data Catalog。

与 Lake Formation 集成后,您可以在表存储桶目录中创建 Apache Iceberg 表,并通过 Amazon Athena Amazon EMR 等集成 AWS 分析引擎以及第三方分析引擎访问这些表。