在 AWS Glue Data Catalog中联合到外部数据来源 - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Glue Data Catalog中联合到外部数据来源

您可以使用连接将 AWS Glue Data Catalog (数据目录)连接到数据仓库,例如Amazon Redshift、Snowflake、Amazon RDS Amazon DynamoDB、Oracle等云数据库和流媒体服务(例如亚马逊 MSK)以及本地系统(例如Teradata)。 AWS Glue 这些连接存储在中 AWS Glue Data Catalog 并注册到中 AWS Lake Formation,允许您为每个可用数据源创建联合目录。

联合目录是指向外部数据系统中的数据库的顶层容器。借助联合目录,您可以直接从外部数据系统查询数据,而无需完成提取、转换、加载(ETL)流程。

有关 AWS Glue 连接的更多信息,请参阅《 AWS Glue 开发人员指南》中的连接数据

数据湖管理员可以使用 Amazon Lakeh SageMaker ou se 创建联合目录,或者。Amazon Athena

然后,数据湖管理员可以使用 Lake Formation 对目录内的对象授予精细权限,在目录、数据库、表、列、行或单元格等不同级别控制访问权限。数据分析师可以使用 Athena 来发现和查询已编目的数据来源,而 Lake Formation 则实施已定义的访问策略。分析师可以在单个查询中合并多个来源的数据,而无需单独连接到每个来源。

工作流

数据湖管理员或具有所需权限的用户完成以下步骤,将 AWS Glue Data Catalog 连接到外部数据源。

  1. 创建 AWS Glue 与数据源的连接。注册连接时,用于注册连接的 IAM 角色必须有权访问 Lambda 函数和 Amazon S3 溢出存储桶位置。

  2. 向 Lake Formation 注册连接。

  3. 使用 AWS Glue 连接在数据目录中创建联合目录以连接到可用数据源。数据库、表和视图会自动在 Data Catalog 中进行编目,并向 Lake Formation 注册。

  4. 使用 Lake Formation 权限向数据分析师授予对特定目录、数据库和表的访问权限。可以使用 Lake Formation 在数据湖、仓库和 OLTP 源上定义精细访问控制策略,从而实现行级和列级安全筛选器。

    然后,数据分析师可以使用 Athena 中的 SQL 查询通过 Data Catalog 访问所有数据,无需单独的连接或数据来源凭证。分析师可以运行联合 SQL 查询,扫描来自多个来源的数据,无需复杂的数据管道即可就地联接数据。