¿Qué es () AWS Lake Formation? - AWS Lake Formation

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es () AWS Lake Formation?

Bienvenido a la Guía para desarrolladores de AWS Lake Formation.

AWS Lake Formation le ayuda a gestionar, proteger y compartir datos a nivel mundial de forma centralizada para el análisis y el machine learning. Con Lake Formation, puede administrar el control de acceso detallado para los datos de su lago de datos en Amazon Simple Storage Service (Amazon S3) y sus metadatos en AWS Glue Data Catalog.

Lake Formation proporciona su propio modelo de permisos que aumenta el modelo de permisos de IAM. El modelo de permisos de Lake Formation permite un acceso específico a los datos almacenados en los lagos de datos, así como a orígenes de datos externos, como los almacenes de datos de Amazon Redshift, las bases de datos Amazon DynamoDB y los orígenes de datos de terceros, mediante un sencillo mecanismo de concesión o revocación, muy similar al de un sistema de gestión de bases de datos relacionales (RDBMS). Los permisos de Lake Formation se aplican mediante controles granulares a nivel de columna, fila y celda en todos los servicios de análisis de AWS y machine learning, incluidos Amazon Athena, Amazon Quick Suite, Amazon Redshift Spectrum, Amazon EMR y AWS Glue.

El modo de acceso híbrido de Lake Formation para AWS Glue Data Catalog (Catálogo de datos) le permite proteger y acceder a los datos catalogados utilizando tanto los permisos de Lake Formation como las políticas de permisos de IAM para Amazon S3 y las acciones de AWS Glue. Con el modo de acceso híbrido, los administradores de datos pueden incorporar los permisos de Lake Formation de forma selectiva e incremental, centrándose en un caso práctico del lago de datos cada vez.

Lake Formation también le permite compartir datos interna y externamente a través de múltiples Cuentas de AWS, organizaciones de AWS o directamente con las entidades principales de IAM en otra cuenta proporcionando un acceso específico a los metadatos del Catálogo de datos y los datos subyacentes.

Características de la Lake Formation

Lake Formation le ayuda a descomponer los silos de datos y a combinar diferentes tipos de datos estructurados y no estructurados en un repositorio centralizado. En primer lugar, identifique los almacenes de datos existentes en Amazon S3 o en bases de datos relacionales y NoSQL, y traslade los datos a su lago de datos. A continuación, rastree, catalogue y prepare los datos para su análisis. Después, proporcione a sus usuarios un acceso seguro de autoservicio a los datos a través de los servicios de análisis que elijan.

Puede utilizar la consola de Lake Formation para crear catálogos federados multinivel en el Catálogo de datos y unificar los datos entre los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift. También puede integrar datos de sus bases de datos operativas, como Amazon DynamoDB, y de orígenes de datos de terceros, como Google BigQuery o MySQL, entre otros. El Catálogo de datos proporciona un repositorio de metadatos centralizado que facilita la administración y la detección de datos en sistemas dispares.

Para obtener más información, consulte Llevar sus datos al AWS Glue Data Catalog.

Ingesta y administración de datos

Importar datos de bases de datos que ya estén en AWS

Tras especificar dónde se encuentran sus bases de datos y proporcione sus credenciales de acceso, Lake Formation lee los datos y sus metadatos (esquema) para comprender el contenido de los orígenes de datos. A continuación, importa los datos a su nuevo lago de datos y registra los metadatos en un catálogo central. Con Lake Formation, puede importar datos de bases de datos MySQL, PostgreSQL, SQL Server, MariaDB y Oracle que se ejecuten en Amazon RDS o estén alojadas en Amazon EC2. Son compatibles tanto la carga masiva de datos como la incremental.

Importar datos de otros orígenes externos

Puede usar Lake Formation para mover datos desde bases de datos en las instalaciones conectándose con Java Database Connectivity (JDBC). Identifique sus fuentes de destino y proporcione las credenciales de acceso en la consola, y Lake Formation leerá y cargará sus datos en el lago de datos. Para importar datos de bases de datos distintas de las enumeradas anteriormente, puede crear trabajos ETL personalizados con AWS Glue.

Catalogar y etiquetar sus datos

Puede utilizar rastreadores de AWS Glue para leer sus datos en Amazon S3 y extraer el esquema de la base de datos y las tablas y almacenar esos datos en un Catálogo de datos apto para búsquedas. A continuación, utilice Lake Formation Control de acceso basado en etiquetas de Lake Formation (TBAC) para administrar los permisos sobre bases de datos, tablas y columnas. Para obtener más información sobre cómo agregar tablas al Catálogo de datos, consulte Creación de objetos en el AWS Glue Data Catalog.

Administración de la seguridad

Defina y gestione los controles de acceso

Lake Formation proporciona un único lugar para administrar los controles de acceso a los datos de su lago de datos. Puede definir políticas de seguridad que restrinjan el acceso a los datos a nivel de base de datos, tabla, columna, fila y celda. Estas políticas se aplican a usuarios y roles de IAM, y a usuarios y grupos cuando se federan a través de un proveedor de identidades externo. Puede utilizar controles detallados para acceder a los datos asegurados por Lake Formation dentro de Amazon Redshift Spectrum, Athena, AWS Glue ETL y Amazon EMR para Apache Spark. Siempre que cree identidades IAM, asegúrese de seguir las mejores prácticas IAM. Para más información, consulte las mejores prácticas de seguridad en la Guía del usuario de IAM.

Modo de acceso híbrido

El modo de acceso híbrido de Lake Formation proporciona la flexibilidad de habilitar selectivamente los permisos de Lake Formation para bases de datos y tablas en su Catálogo de datos. Con el modo de acceso híbrido, ahora tiene una ruta incremental que le permite establecer los permisos de Lake Formation para un conjunto específico de usuarios sin interrumpir las políticas de permisos de otros usuarios o cargas de trabajo existentes. Para obtener más información, consulte Modo de acceso híbrido.

Implantar el registro de auditoría

Lake Formation proporciona registros de auditoría completos con CloudTrail para supervisar el acceso y demostrar el cumplimiento de las políticas definidas de forma centralizada. Puede auditar el historial de acceso a los datos en los servicios de análisis y de machine learning que leen los datos de su lago de datos a través de Lake Formation. Esto le permite ver qué usuarios o roles han intentado acceder a qué datos, con qué servicios y cuándo. Puede acceder a los registros de auditoría del mismo modo que accede a cualquier otro registro de CloudTrail utilizando las API y la consola de CloudTrail. Para obtener más información sobre los registros de CloudTrail, consulte Registro de llamadas a la API de AWS Lake Formation mediante AWS CloudTrail.

Seguridad de nivel de fila y celda

Lake Formation proporciona filtros de datos que le permiten restringir el acceso a una combinación de columnas y filas. Utilice la seguridad a nivel de filas y celdas para proteger datos confidenciales como la información de identificación personal (PII). Para obtener más información sobre la seguridad a nivel de fila, consulte Filtrado de datos y seguridad de celda en Lake Formation.

Control de acceso basado en etiquetas

Utilice el control de acceso basado en atributos de Lake Formation para administrar cientos o incluso miles de permisos de datos mediante la creación de etiquetas personalizadas denominadas etiquetas LF. Ahora puede definir etiquetas LF y asociarlas a bases de datos, tablas o columnas. A continuación, comparta el acceso controlado a través de los servicios de análisis, de machine learning (ML) y de extracción, transformación y carga (ETL) para su consumo. Las etiquetas LF garantizan que la gobernanza de los datos pueda escalarse fácilmente sustituyendo las definiciones de políticas de miles de recursos por unas pocas etiquetas lógicas. Lake Formation proporciona una búsqueda basada en texto sobre estos metadatos, para que sus usuarios puedan encontrar rápidamente los datos que necesitan analizar.

Control de acceso basado en atributos

Utilice el control de acceso basado en atributos para conceder el acceso a los objetos del Catálogo de datos. El control de acceso basado en atributos (ABAC) es una estrategia de autorización que define los permisos en función de atributos. AWS denomina a estos atributos etiquetas. Puede utilizar ABAC para conceder acceso a las entidades principales de la misma cuenta o de otra cuenta sobre los recursos del Catálogo de datos. Cualquier entidad principal de IAM con claves y valores coincidentes de la etiqueta de IAM o de la etiqueta de sesión tendrá acceso al recurso. Debe tener permisos concesibles sobre los recursos para poder realizar estas concesiones.

Acceso entre cuentas

Las capacidades de administración de permisos de Lake Formation simplifican la seguridad y la administración de los lagos de datos distribuidos en varias cuentas AWS a través de un enfoque centralizado, proporcionando un control de acceso específico al Catálogo de datos y a las ubicaciones de Amazon S3. Para obtener más información, consulte Compartir datos entre cuentas en Lake Formation.

Inclusión de los datos en el Catálogo de datos

La capacidad de federación le permite crear catálogos federados y establecer permisos sobre conjuntos de datos almacenados en diferentes orígenes de datos como Amazon Redshift sin necesidad de migrar datos o metadatos a Amazon S3 o AWS Glue Data Catalog. Puede utilizar cualquiera de los métodos siguientes para llevar datos y gestionar permisos sobre conjuntos de datos externos en Lake Formation:

Para obtener más información, consulte Inclusión de los datos en el AWS Glue Data Catalog.

  • Incorporación de los datos de los almacenes de datos de Amazon Redshift en el AWS Glue Data Catalog: registre un espacio de nombres o un clúster de Amazon Redshift existente en el Catálogo de datos y cree un catálogo federado de varios niveles en el Catálogo de datos.

    Puede acceder a sus datos mediante cualquier motor de consultas compatible con la especificación OpenAPI de catálogo REST de Apache Iceberg, como Amazon EMR sin servidor y Amazon Athena.

    Para obtener más información, consulte Inclusión de los datos de Amazon Redshift en el AWS Glue Data Catalog.

  • Federación en el Catálogo de datos desde orígenes de datos externos: conecte el Catálogo de datos a orígenes de datos externos mediante conexiones de AWS Glue y cree catálogos federados para administrar de forma centralizada los permisos de acceso a los conjuntos de datos mediante Lake Formation. No es necesario migrar los metadatos al Catálogo de datos.

    Para obtener más información, consulte Federación en orígenes de datos externos en el AWS Glue Data Catalog.

  • Integración de los buckets de Tablas de Amazon S3 con el Catálogo de datos: puede publicar y catalogar las Tablas de Amazon S3 como objetos del Catálogo de datos y registrar el catálogo como una ubicación de datos de Lake Formation desde la consola de Lake Formation o mediante API de AWS Glue.

    Para obtener más información, consulte Creación de un catálogo de Amazon S3 Tables en el AWS Glue Data Catalog.

  • Creación de catálogos para administrar las tablas de Amazon Redshift en el Catálogo de datos: es posible que no tenga un clúster productor de Amazon Redshift o un recurso compartido de datos de Amazon Redshift disponibles en la actualidad, pero desee crear y administrar las tablas de Amazon Redshift mediante el Catálogo de datos. Para empezar, puede crear un catálogo de AWS Glue administrado mediante la API glue:CreateCatalog o la consola de AWS Lake Formation, configurando el tipo de catálogo como Managed y Catalog source como Redshift.

    Para obtener más información, consulte Creación de un catálogo administrado de Amazon Redshift en el AWS Glue Data Catalog.

  • Integración de Lake Formation con el uso compartido de datos de Amazon Redshift. Utilice Lake Formation para administrar de forma centralizada los permisos de acceso a nivel de base de datos, tabla, columna y fila de los recursos compartidos de datos de Amazon Redshift y restringir el acceso de los usuarios a los objetos dentro de un recurso compartido de datos.

  • Conexión del Catálogo de datos a metaalmacenes externos: conecte AWS Glue Data Catalog a metaalmacenes externos para gestionar los permisos de acceso a los conjuntos de datos de Amazon S3 mediante Lake Formation. No es necesario migrar los metadatos al Catálogo de datos.

    Para obtener más información, consulte Administración de los permisos de los conjuntos de datos que utilizan metaalmacenes externos.

  • Integración de Lake Formation con el intercambio de datos de AWS. Lake Formation admite la concesión de licencias de acceso a sus datos mediante AWS Data Exchange. Si está interesado en licenciar sus datos de Lake Formation, consulte Qué es AWS Data Exchange en la Guía del usuario de AWS Data Exchange.

Introducción a Lake Formation

Le recomendamos que lea las siguientes secciones: