Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Administración de los permisos de los conjuntos de datos que utilizan metaalmacenes externos
Con la federación de metadatos AWS Glue Data Catalog (federación de catálogos de datos), puede conectar el Catálogo de datos a metaalmacenes externos que almacenan los metadatos de sus datos de Amazon S3 y gestionar de forma segura los permisos de acceso a los datos mediante AWS Lake Formation. No tiene que migrar los metadatos del metaalmacén externo al Catálogo de datos.
El Catálogo de datos proporciona un repositorio de metadatos centralizado que facilita la administración y la detección de datos en sistemas dispares. Cuando su organización administra los datos del Catálogo de datos, puede utilizar AWS Lake Formation para controlar el acceso a sus conjuntos de datos en Amazon S3.
nota
Actualmente, solo admitimos la federación de metaalmacenes Hive de Apache (versión 3 y superior).
Para configurar la federación de catálogos de datos, proporcionamos una aplicación de AWS Serverless Application Model (AWS SAM) llamada GlueDataCatalogFederation-HivMetaStore
La implementación de referencia se proporciona en GitHub como un proyecto de código abierto en Federación de AWS Glue Data Catalog - Metaalmacén de Hive
La aplicación AWS SAM crea e implementa los siguientes recursos necesarios para conectar el Catálogo de datos al metaalmacén de Hive:
Una función de AWS Lambda: aloja la implementación del servicio de federación que se comunica entre el Catálogo de datos y el de metaalmacén de Hive. AWS Glue invoca esta función de Lambda para recuperar objetos de metadatos del metaalmacén de Hive.
Amazon API Gateway – el punto de conexión del metaalmacén de Hive que actúa como proxy para enrutar todas las invocaciones a la función de Lambda.
Un rol de IAM: un rol con los permisos necesarios para crear la conexión entre el Catálogo de datos y el metaalmacén de Hive.
Conexión con AWS Glue: una conexión con AWS Glue de tipo Amazon API Gateway que almacena el punto de conexión de Amazon API Gateway y un rol de IAM para invocarlo.
Al consultar tablas, el servicio AWS Glue hace una llamada en tiempo de ejecución al metaalmacén de Hive y recupera los metadatos. La función de Lambda actúa como un traductor entre el metaalmacén de Hive y el Catálogo de datos.
Tras establecer la conexión, para sincronizar los metadatos del metaalmacén de Hive con el Catálogo de datos, debe crear una base de datos federada en el Catálogo de datos utilizando los detalles de conexión del metaalmacén de Hive y asignar esta base de datos a la base de datos de Hive. Una base de datos se denomina base de datos federada cuando apunta a una entidad ajena al Catálogo de datos.
Puede aplicar los permisos de Lake Formation utilizando el control de acceso basado en etiquetas y el método de recurso con nombre de la base de datos federada y compartirlos en varias Cuentas de AWS, AWS Organizations y unidades organizativas (UO). También puede compartir la base de datos federada directamente con las entidades principales de IAM desde otra cuenta.
Puede definir permisos específicos de columna, fila y celda utilizando los filtros de datos de Lake Formation en tablas de Hive externas. Puede usar Amazon Athena, Amazon Redshift o Amazon EMR para consultar las tablas de Hive externas administradas por Lake Formation.
Para obtener más información sobre el filtrado y el intercambio de datos entre cuentas, consulte:
Pasos básicos de la federación de metadatos del Catálogo de datos
-
Los usuarios y roles de IAM se crean con los permisos adecuados para implementar la aplicación de AWS SAM y crear bases de datos federadas.
-
Para registrar la ubicación de datos de Amazon S3 en Lake Formation, debe seleccionar la opción
Enable Data Catalog federationpara los conjuntos de datos que utilizan un metaalmacén de Hive externo. Debe configurar los ajustes de la aplicación AWS SAM (nombre de la conexión AWS Glue, URL al metaalmacén de Hive y parámetros de la función de Lambda) e implementar la aplicación de AWS SAM.
-
La aplicación de AWS SAM crea e implementa los siguientes recursos necesarios para conectar el Catálogo de datos al metaalmacén de Hive.
-
Para aplicar los permisos de Lake Formation en la base de datos y las tablas de Hive, crea una base de datos en el Catálogo de datos utilizando los datos de conexión del metaalmacén de Hive y asigna esta base de datos a la base de datos de Hive.
Conceda permisos en las bases de datos federadas a las entidades principales de su cuenta o de otra cuenta.
nota
Puede conectar el Catálogo de datos a un metaalmacén de Hive externo, crear bases de datos federadas y ejecutar consultas y scripts de ETL en bases de datos y tablas de Hive sin aplicar los permisos de Lake Formation. Para los datos de origen en Amazon S3 que no estén registrados en Lake Formation, el acceso se determina mediante las políticas de permisos de IAM para Amazon S3 y acciones de AWS Glue.
Para conocer las limitaciones, consulte Consideraciones y limitaciones del uso compartido de datos del almacén de metadatos de Hive.
Temas
Flujo de trabajo
En el siguiente diagrama, se muestra el flujo de trabajo para conectar el AWS Glue Data Catalog a un metaalmacén externo de Hive.
-
Una entidad principal envía una consulta mediante un servicio integrado como Athena o Redshift Spectrum.
El servicio integrado efectúa una llamada al Catálogo de datos para obtener los metadatos, que a su vez llama al punto de conexión del metaalmacén de Hive disponible detrás de Amazon API Gateway y recibe las respuestas a las solicitudes de metadatos.
-
El servicio integrado envía la solicitud a Lake Formation para verificar la información de la tabla y las credenciales para acceder a la tabla.
-
Lake Formation autoriza la solicitud y suministra credenciales temporales a la aplicación integrada, que permite el acceso a los datos.
Con las credenciales temporales recibidas de Lake Formation, el servicio integrado lee los datos de Amazon S3 y comparte los resultados con la entidad principal.