本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 AWS Glue Data Catalog中联合到外部数据来源
您可以使用连接将 AWS Glue Data Catalog (数据目录)连接到数据仓库,例如Amazon Redshift、Snowflake、Amazon RDS Amazon DynamoDB、Oracle等云数据库和流媒体服务(例如亚马逊 MSK)以及本地系统(例如Teradata)。 AWS Glue 这些连接存储在中 AWS Glue Data Catalog 并注册到中 AWS Lake Formation,允许您为每个可用数据源创建联合目录。
联合目录是指向外部数据系统中的数据库的顶层容器。借助联合目录,您可以直接从外部数据系统查询数据,而无需完成提取、转换、加载(ETL)流程。
有关 AWS Glue 连接的更多信息,请参阅《 AWS Glue 开发人员指南》中的连接数据。
数据湖管理员可以使用 Amazon Lakeh SageMaker ou se 创建联合目录,或者。Amazon Athena
然后,数据湖管理员可以使用 Lake Formation 对目录内的对象授予精细权限,在目录、数据库、表、列、行或单元格等不同级别控制访问权限。数据分析师可以使用 Athena 来发现和查询已编目的数据来源,而 Lake Formation 则实施已定义的访问策略。分析师可以在单个查询中合并多个来源的数据,而无需单独连接到每个来源。
工作流
数据湖管理员或具有所需权限的用户完成以下步骤,将 AWS Glue Data Catalog 连接到外部数据源。
-
创建 AWS Glue 与数据源的连接。注册连接时,用于注册连接的 IAM 角色必须有权访问 Lambda 函数和 Amazon S3 溢出存储桶位置。
-
向 Lake Formation 注册连接。
-
使用 AWS Glue 连接在数据目录中创建联合目录以连接到可用数据源。数据库、表和视图会自动在 Data Catalog 中进行编目,并向 Lake Formation 注册。
-
使用 Lake Formation 权限向数据分析师授予对特定目录、数据库和表的访问权限。可以使用 Lake Formation 在数据湖、仓库和 OLTP 源上定义精细访问控制策略,从而实现行级和列级安全筛选器。
然后,数据分析师可以使用 Athena 中的 SQL 查询通过 Data Catalog 访问所有数据,无需单独的连接或数据来源凭证。分析师可以运行联合 SQL 查询,扫描来自多个来源的数据,无需复杂的数据管道即可就地联接数据。