本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将数据目录连接到 Hive 元存储的先决条件
要将 AWS Glue Data Catalog 连接到外部 Apache Hive 元存储并设置数据访问权限,您需要完成以下要求:
注意
我们建议 Lake Formation 管理员部署 AWS SAM 应用程序,并且只有特权用户才能使用 Hive 元存储连接来创建相应的联合数据库。
创建 IAM 角色。
部署 AWS SAM 应用程序
创建具有部署资源(Lambda 函数、Amazon API Gateway、IAM 角色和 AWS Glue 连接)所需的权限的角色,以创建与 Hive 元存储的连接。
创建联合数据库
需要以下资源权限:
-
glue:CreateDatabase on resource arn:aws:glue:region:account-id:database/gluedatabasename -
glue:PassConnection on resource arn:aws:glue:region:account-id:connection/hms_connection
-
在 Lake Formation 中注册 Amazon S3 位置。
要使用 Lake Formation 管理和保护数据湖中的数据,您必须在 Lake Formation 中注册含有 Hive 元存储中表数据的 Amazon S3 位置。这样,Lake Formation 就可以向 Athena、Redshift Spectrum 和 Amazon EMR 等 AWS 分析服务售卖凭证。
有关注册 Amazon S3 位置的更多信息,请参阅向数据湖添加 Amazon S3 位置。
注册 Amazon S3 位置时,请选中启用数据目录联合身份验证复选框以允许 Lake Formation 代入访问联合数据库中表的角色。
有关在 Lake Formation 中注册数据位置的更多信息,请参阅为您的数据湖配置 Amazon S3 位置。
-
使用正确的 Amazon EMR 版本。
要将 Amazon EMR 与联合 Hive 元存储数据库配合使用,您需要拥有 Hive 3.x 版或更高版本以及 Amazon EMR 6.x 版或更高版本。