Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Federación en orígenes de datos externos en el AWS Glue Data Catalog
Puede conectar el AWS Glue Data Catalog (catálogo de datos) a almacenes de datos como Amazon Redshift o Snowflake, bases de datos en la nube como Amazon RDS Amazon DynamoDB, Oracle y servicios de streaming como Amazon MSK, y sistemas locales como Teradata mediante conexiones. AWS Glue Estas conexiones se almacenan AWS Glue Data Catalog y se registran en él AWS Lake Formation, lo que le permite crear un catálogo federado para cada fuente de datos disponible.
Un catálogo federado es un contenedor de nivel superior que apunta a una base de datos de un sistema de datos externo. Le permite consultar los datos directamente desde el sistema de datos externo sin necesidad de procesos de extracción, transformación y carga (ETL).
Para obtener más información sobre AWS Glue las conexiones, consulte Conexión a los datos en la Guía para AWS Glue desarrolladores.
Los administradores de lagos de datos pueden crear catálogos federados mediante Amazon SageMaker Lakehouse o. Amazon Athena
Luego, los administradores de lagos de datos pueden conceder permisos detallados sobre los objetos del catálogo mediante Lake Formation, controlando el acceso en varios niveles, como el catálogo, la base de datos, la tabla, la columna, la fila o la celda. Los analistas de datos pueden descubrir y consultar los orígenes de datos catalogados con Athena, y Lake Formation aplica las políticas de acceso definidas. Los analistas pueden unir datos de varios orígenes en una sola consulta sin necesidad de conectarse a cada origen de forma individual.
Temas
Flujo de trabajo
Un administrador de un lago de datos o un usuario con los permisos necesarios debe completar los siguientes pasos para conectarlo AWS Glue Data Catalog a una fuente de datos externa.
-
Crea una AWS Glue conexión con la fuente de datos. Al registrar la conexión, el rol de IAM utilizado para registrar la conexión debe tener acceso a la función Lambda y a la ubicación del bucket de desbordamiento de Amazon S3.
-
Registra la conexión con Lake Formation.
-
Crea un catálogo federado en el catálogo de datos mediante una AWS Glue conexión para conectarse a las fuentes de datos disponibles. Las bases de datos, tablas y vistas se catalogan automáticamente en el Catálogo de datos y se registran en Lake Formation.
-
Concede acceso a catálogos, bases de datos y tablas específicos a los analistas de datos que utilizan permisos de Lake Formation. Se pueden definir políticas de control de acceso detalladas en lagos de datos, almacenes y orígenes OLTP mediante Lake Formation, que permite filtros de seguridad de nivel de fila y columna.
Luego, los analistas de datos pueden acceder a todos los datos a través del catálogo de datos mediante consultas SQL en Athena, sin necesidad de conexiones independientes ni credenciales de orígenes de datos. Los analistas pueden ejecutar consultas SQL federadas que escanean datos de múltiples orígenes y unirlos in situ sin canalizaciones de datos complejas.