Características de la Lake Formation Introducción a Lake Formation

¿Qué es AWS Lake Formation?

Bienvenido a la Guía para AWS Lake Formation desarrolladores.

AWS Lake Formation le ayuda a gestionar, proteger y compartir datos a nivel mundial de forma centralizada para el análisis y el aprendizaje automático. Con Lake Formation, puede administrar el control de acceso detallado para los datos de su lago de datos en Amazon Simple Storage Service (Amazon S3) y sus metadatos en AWS Glue Data Catalog.

Lake Formation proporciona su propio modelo de permisos que aumenta el modelo de permisos de IAM. El modelo de permisos de Lake Formation permite un acceso específico a los datos almacenados en los lagos de datos, así como a orígenes de datos externos, como los almacenes de datos de Amazon Redshift, las bases de datos de Amazon DynamoDB y los orígenes de datos de terceros, mediante un sencillo mecanismo de concesión o revocación, muy similar al de un sistema de administración de bases de datos relacionales (RDBMS). Los permisos de Lake Formation se aplican mediante controles granulares a nivel de columna, fila y celda en todos los servicios de AWS análisis y aprendizaje automático, incluidos Amazon Athena Amazon Quick, Amazon Redshift Spectrum, Amazon EMR y. AWS Glue

Con el modo de acceso híbrido de Lake Formation para AWS Glue Data Catalog (Data Catalog), puede proteger los datos catalogados y acceder a ellos mediante los permisos de Lake Formation y las políticas de permisos de IAM para Amazon S3 y AWS Glue sus acciones. Con el modo de acceso híbrido, los administradores de datos pueden incorporar los permisos de Lake Formation de forma selectiva e incremental, centrándose en un caso práctico del lago de datos cada vez.

Lake Formation también le permite compartir datos interna y externamente entre varias AWS organizaciones o directamente con los directores de IAM en otra cuenta Cuentas de AWS, lo que proporciona un acceso detallado a los metadatos del catálogo de datos y a los datos subyacentes.

Temas

Características de la Lake Formation

Lake Formation le ayuda a descomponer los silos de datos y a combinar diferentes tipos de datos estructurados y no estructurados en un repositorio centralizado. En primer lugar, identifique los almacenes de datos existentes en Amazon S3 o en bases de datos relacionales y NoSQL, y traslade los datos a su lago de datos. A continuación, rastree, catalogue y prepare los datos para su análisis. Después, proporcione a sus usuarios un acceso seguro de autoservicio a los datos a través de los servicios de análisis que elijan.

Puede utilizar la consola de Lake Formation para crear catálogos federados multinivel en el Catálogo de datos y unificar los datos entre los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift. También puede integrar datos de sus bases de datos operativas, por ejemplo Amazon DynamoDB, y de fuentes de datos de terceros BigQuery, como Google o MySQL, entre otras. El Catálogo de datos proporciona un repositorio de metadatos centralizado que facilita la administración y la detección de datos en sistemas dispares.

Para obtener más información, consulte Llevar sus datos al AWS Glue Data Catalog.

Temas

Ingesta y administración de datos
Administración de la seguridad
Inclusión de los datos en el Catálogo de datos

Ingesta y administración de datos

Importe datos de bases de datos que ya estén en AWS

Tras especificar dónde se encuentran sus bases de datos y proporcione sus credenciales de acceso, Lake Formation lee los datos y sus metadatos (esquema) para comprender el contenido de los orígenes de datos. A continuación, importa los datos a su nuevo lago de datos y registra los metadatos en un catálogo central. Con Lake Formation, puede importar datos de bases de datos MySQL, PostgreSQL, SQL Server, MariaDB y Oracle que se ejecuten en Amazon RDS o estén alojadas en Amazon EC2. Son compatibles tanto la carga masiva de datos como la incremental.

Importar datos de otros orígenes externos

Puede usar Lake Formation para mover datos desde bases de datos en las instalaciones conectándose con Java Database Connectivity (JDBC). Identifique sus fuentes de destino y proporcione las credenciales de acceso en la consola, y Lake Formation leerá y cargará sus datos en el lago de datos. Para importar datos de bases de datos distintas de las enumeradas anteriormente, puede crear trabajos de ETL personalizados con ellas AWS Glue.

Catalogar y etiquetar sus datos

Puede usar AWS Glue rastreadores para leer sus datos en Amazon S3 y extraer el esquema de bases de datos y tablas y almacenar esos datos en un catálogo de datos en el que se puedan realizar búsquedas. A continuación, utilice Lake Formation Control de acceso basado en etiquetas de Lake Formation (TBAC) para administrar los permisos sobre bases de datos, tablas y columnas. Para obtener más información sobre cómo agregar tablas al Catálogo de datos, consulte Creación de objetos en el AWS Glue Data Catalog.

Administración de la seguridad

Defina y gestione los controles de acceso

Lake Formation proporciona un único lugar para administrar los controles de acceso a los datos de su lago de datos. Puede definir políticas de seguridad que restrinjan el acceso a los datos a nivel de base de datos, tabla, columna, fila y celda. Estas políticas se aplican a usuarios y roles de IAM, y a usuarios y grupos cuando se federan a través de un proveedor de identidades externo. Puede utilizar controles detallados para acceder a los datos protegidos por Lake Formation en Amazon Redshift Spectrum, AWS Glue Athena, ETL y Amazon EMR para Apache Spark. Siempre que cree identidades IAM, asegúrese de seguir las mejores prácticas IAM. Para más información, consulte las mejores prácticas de seguridad en la Guía del usuario de IAM.

Modo de acceso híbrido

El modo de acceso híbrido de Lake Formation proporciona la flexibilidad de habilitar selectivamente los permisos de Lake Formation para bases de datos y tablas en su Catálogo de datos. Con el modo de acceso híbrido, ahora tiene una ruta incremental que le permite establecer los permisos de Lake Formation para un conjunto específico de usuarios sin interrumpir las políticas de permisos de otros usuarios o cargas de trabajo existentes. Para obtener más información, consulte Modo de acceso híbrido.

Implantar el registro de auditoría

Lake Formation proporciona registros de auditoría completos CloudTrail para monitorear el acceso y mostrar el cumplimiento de las políticas definidas centralmente. Puede auditar el historial de acceso a los datos en los servicios de análisis y de machine learning que leen los datos de su lago de datos a través de Lake Formation. Esto le permite ver qué usuarios o roles han intentado acceder a qué datos, con qué servicios y cuándo. Puede acceder a los registros de auditoría de la misma manera que accede a cualquier otro CloudTrail registro mediante la consola CloudTrail APIs and. Para obtener más información sobre CloudTrail los registros, consulteRegistro de llamadas a la API de AWS Lake Formation mediante AWS CloudTrail.

Seguridad de nivel de fila y celda

Lake Formation proporciona filtros de datos que le permiten restringir el acceso a una combinación de columnas y filas. Utilice la seguridad a nivel de filas y celdas para proteger datos confidenciales como la información de identificación personal (PII). Para obtener más información sobre la seguridad a nivel de fila, consulte Filtrado de datos y seguridad de celda en Lake Formation.

Control de acceso basado en etiquetas

Utilice el control de acceso basado en atributos de Lake Formation para administrar cientos o incluso miles de permisos de datos mediante la creación de etiquetas personalizadas denominadas etiquetas LF. Ahora puede definir etiquetas LF y asociarlas a bases de datos, tablas o columnas. A continuación, comparta el acceso controlado a través de los servicios de análisis, de machine learning (ML) y de extracción, transformación y carga (ETL) para su consumo. Las etiquetas LF garantizan que la gobernanza de los datos pueda escalarse fácilmente sustituyendo las definiciones de políticas de miles de recursos por unas pocas etiquetas lógicas. Lake Formation proporciona una búsqueda basada en texto sobre estos metadatos, para que sus usuarios puedan encontrar rápidamente los datos que necesitan analizar.

Control de acceso basado en atributos

Utilice el control de acceso basado en atributos para conceder el acceso a los objetos del Catálogo de datos. El control de acceso basado en atributos (ABAC) es una estrategia de autorización que define los permisos en función de los atributos. AWS llama a estos atributos etiquetas. Puede utilizar ABAC para conceder acceso a las entidades principales de la misma cuenta o de otra cuenta sobre los recursos del Catálogo de datos. Cualquier entidad principal de IAM con claves y valores coincidentes de la etiqueta de IAM o de la etiqueta de sesión tendrá acceso al recurso. Debe tener permisos concesibles sobre los recursos para poder realizar estas concesiones.

Acceso entre cuentas

Las capacidades de administración de permisos de Lake Formation simplifican la protección y la administración de los lagos de datos distribuidos en varias AWS cuentas mediante un enfoque centralizado, lo que proporciona un control de acceso detallado al catálogo de datos y a las ubicaciones de Amazon S3. Para obtener más información, consulte Cross-account intercambio de datos en Lake Formation.

La capacidad de federación le permite crear catálogos federados y establecer permisos sobre conjuntos de datos almacenados en diferentes orígenes de datos como Amazon Redshift sin necesidad de migrar datos o metadatos a Amazon S3 o AWS Glue Data Catalog. Puede utilizar cualquiera de los métodos siguientes para llevar datos y administrar permisos en conjuntos de datos externos en Lake Formation:

Para obtener más información, consulte Inclusión de los datos en el AWS Glue Data Catalog.

Incorporación de los datos de los almacenes de datos de Amazon Redshift en el AWS Glue Data Catalog: registre un espacio de nombres o un clúster de Amazon Redshift existente en el Catálogo de datos y cree un catálogo federado de varios niveles en el Catálogo de datos.

Puede acceder a sus datos mediante cualquier motor de consultas compatible con la especificación OpenAPI de catálogo REST de Apache Iceberg, como Amazon EMR sin servidor y Amazon Athena.

Para obtener más información, consulte Incorporar los datos de Amazon Redshift al AWS Glue Data Catalog.
Federación en el catálogo de datos desde fuentes de datos externas: conecte el catálogo de datos a fuentes de datos externas mediante AWS Glue conexiones y cree catálogos federados para administrar de forma centralizada los permisos de acceso a los conjuntos de datos mediante Lake Formation. No es necesario migrar los metadatos al Catálogo de datos.

Para obtener más información, consulte Federación en fuentes de datos externas en el AWS Glue Data Catalog.
Integración de los cubos de tablas de Amazon S3 con el catálogo de datos: puede publicar y catalogar las tablas de Amazon S3 como objetos del catálogo de datos y registrar el catálogo como una ubicación de datos de Lake Formation desde la consola de Lake Formation o utilizando AWS Glue APIs.

Para obtener más información, consulte Integración de Amazon S3 Tables con AWS Glue Data Catalog and AWS Lake Formation.
Creación de catálogos para administrar las tablas de Amazon Redshift en el Catálogo de datos: es posible que no tenga un clúster productor de Amazon Redshift o un recurso compartido de datos de Amazon Redshift disponibles en la actualidad, pero desee crear y administrar las tablas de Amazon Redshift mediante el Catálogo de datos. Para empezar, puede crear un catálogo AWS Glue gestionado mediante la glue:CreateCatalog API o la AWS Lake Formation consola configurando el tipo de catálogo como Managed y Catalog source como Redshift.

Para obtener más información, consulte Creación de un catálogo gestionado de Amazon Redshift en AWS Glue Data Catalog.
Integración de Lake Formation con el uso compartido de datos de Amazon Redshift. Utilice Lake Formation para administrar de forma centralizada los permisos de acceso a nivel de base de datos, tabla, columna y fila de los recursos compartidos de datos de Amazon Redshift y restringir el acceso de los usuarios a los objetos dentro de un recurso compartido de datos.
Conexión del catálogo de datos a metaalmacenes externos: conéctese AWS Glue Data Catalog a metaalmacenes externos para gestionar los permisos de acceso a los conjuntos de datos de Amazon S3 mediante Lake Formation. No es necesario migrar los metadatos al Catálogo de datos.

Para obtener más información, consulte Administración de los permisos de los conjuntos de datos que utilizan metaalmacenes externos.
Integración de Lake Formation con AWS Data Exchange: Lake Formation admite la concesión de licencias de acceso a sus datos mediante AWS Data Exchange. Si está interesado en licenciar sus datos de Lake Formation, consulte Qué es AWS Data Exchange en la Guía del usuario de AWS Data Exchange .

Introducción a Lake Formation

Le recomendamos que lea las siguientes secciones:

AWS Lake Formation: Cómo funciona. Conozca la terminología esencial y cómo interactúan los distintos componentes.
Introducción a Lake Formation. Obtenga información sobre los requisitos previos y complete las tareas de configuración importantes.
AWS Lake Formation tutoriales— Sigue step-by-step los tutoriales para aprender a usar Lake Formation.
Seguridad en AWS Lake Formation. Comprenda cómo puede ayudar a proteger el acceso a los datos en Lake Formation.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cómo funciona

¿Qué es AWS Lake Formation?

Temas

Características de la Lake Formation

Temas

Ingesta y administración de datos

Importe datos de bases de datos que ya estén en AWS

Importar datos de otros orígenes externos

Catalogar y etiquetar sus datos

Administración de la seguridad

Defina y gestione los controles de acceso

Modo de acceso híbrido

Implantar el registro de auditoría

Seguridad de nivel de fila y celda

Control de acceso basado en etiquetas

Control de acceso basado en atributos

Acceso entre cuentas

Inclusión de los datos en el Catálogo de datos

Introducción a Lake Formation