本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将您的数据带入 AWS Glue Data Catalog
您可以在 AWS Glue Data Catalog (数据目录)中创建联合目录,并统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据。您还可以整合来自操作数据库(例如)和第三方数据源(例如 PostgreSQL Amazon DynamoDB、Google BigQuery、MySQL 等)的数据。Data Catalog 提供了一个集中式元数据存储库,使管理和发现不同系统中的数据变得更加容易。
Data Catalog 通过联合连接器与 30 多个外部数据来源集成。通过这种集成,您可以查询来自这些外部来源的数据,而不必 AWS 先构建数据管道来提取数据。
对外部数据进行编目后,您可以使用 AWS Lake Formation 集中管理数据目录中的数据访问权限。数据湖管理员可以使用基于标签的访问控制(LF 标签)和命名资源方法,向同一账户内或跨账户的其他 IAM 主体(用户或角色)授予精细访问权限。
通过使用 LF-Tags,数据管理员可以根据域和敏感度级别等属性对资源进行逻辑组织,从而简化权限管理,同时确保分析和机器学习服务(包括 Athena、Amazon EMR 或 Redshift Spectrum)的一致访问控制。 AWS Glue
Data Catalog 提供了以下方法来管理数据以及外部数据集和外部元存储的权限:
-
将 Amazon S3 表存储桶与数据目录集成 — 您可以从 Lake Formation 控制台或使用 AWS Glue API 操作将 Amazon S3 表作为数据目录对象发布和编目,并将该目录注册为 Lake Formation 数据位置。
-
将 Amazon Redshift 数据仓库中的数据引入 AWS Glue Data Catalog — 向数据目录注册现有的 Amazon Redshift 命名空间或集群,然后在数据目录中创建多级联合目录。
您可以使用任何与 Apache Iceberg REST 目录 OpenAPI 规格兼容的查询引擎(例如,Amazon EMR Serverless 和 Amazon Athena)访问您的数据。
-
将远程Iceberg REST目录联合到数据目录 — 将远程目录联合到数据Iceberg REST目录,并使用分析引擎安全地访问存储在 Amazon S3 Iceberg 中的远程表。 AWS
-
从外部数据源联合到数据目录 — 使用 AWS Glue 连接将数据目录连接到外部数据源,并创建联合目录以使用 Lake Formation 集中管理数据集的访问权限。无需将元数据迁移到 Data Catalog。
-
创建目录来管理 Data Catalog 中的 Amazon Redshift 表:您现在可能没有可用的 Amazon Redshift 创建器集群或 Amazon Redshift 数据共享,但想使用 Data Catalog 来创建和管理 Amazon Redshift 表。首先,您可以使用
glue:CreateCatalogAPI 操作创建 AWS Glue 托管目录,也可以将目录类型设置为Managed并将Catalog source设置为 Redshift,然后通过 AWS Lake Formation 控制台来创建托管目录。 -
使用 Data Catalog 发布 Amazon Redshift 数据共享:将 Amazon Redshift 数据共享发布到 Data Catalog,使用 Lake Formation 集中管理数据共享的数据访问并限制用户访问。
您可以使用 Amazon Redshift Spectrum 查询数据。
-
将 Data Catalog 连接到外部 Hive 元存储:使用 Lake Formation 将 Data Catalog 连接到外部元存储以管理 Amazon S3 中数据集的访问权限。无需将元数据迁移到 Data Catalog。
-
将 Lake Form AWS ation 与 Data Exchang e 集成 — Lake Formation 支持通过许可访问您的数据 AWS Data Exchange。如果您想对 Lake Formation 数据授予许可,请参阅《AWS Data Exchange 用户指南》中的什么是 AWS Data Exchange?。