Lago de datos Acceso a los datos Modo de acceso híbrido Esquema Flujo de trabajo Data Catalog Datos subyacentes Principal Administrador de lago de datos

Terminología de Lake Formation

A continuación se indican algunos términos importantes que encontrará en esta guía.

Lago de datos

El lago de datos son sus datos persistentes almacenados en Amazon S3 y administrados por Lake Formation mediante un Catálogo de datos. En general, un lago de datos almacena lo siguiente:

Datos estructurados y no estructurados
Datos sin procesar y datos transformados

Para que una ruta de Amazon S3 esté dentro de un lago de datos, debe estar registrada en Lake Formation.

Acceso a los datos

Lake Formation proporciona un acceso seguro y específico a los datos a través de un nuevo modelo de concesión/revocación de permisos que aumenta las políticas de AWS Identity and Access Management (IAM).

Los analistas y científicos de datos pueden utilizar toda la cartera de servicios de análisis y machine learning de AWS, como Amazon Athena, para acceder a los datos. Las políticas de seguridad configuradas de Lake Formation ayudan a garantizar que los usuarios solo puedan acceder a los datos para los que están autorizados.

Modo de acceso híbrido

Gracias al modo de acceso Hybrid, podrá proteger y acceder a los datos catalogados utilizando tanto los permisos de Lake Formation como los de IAM y Amazon S3. El modo de acceso híbrido permite a los administradores de datos incorporar los permisos de Lake Formation de forma selectiva e incremental, centrándose en un caso práctico de lago de datos cada vez.

Esquema

Un esquema es una plantilla de administración de datos que permite incorporar datos fácilmente a un lago de datos. Lake Formation proporciona varios esquemas, cada uno para un tipo de fuente predefinido, como una base de datos relacional o registros de AWS CloudTrail. A partir de un esquema, puede crear un flujo de trabajo. Los flujos de trabajo constan de rastreadores de AWS Glue, trabajos y desencadenadores que se generan para orquestar la carga y actualización de datos. Los esquemas toman como entrada el origen de datos, el destino de estos y la programación para configurar el flujo de trabajo.

Flujo de trabajo

Un flujo de trabajo es un contenedor para un conjunto de trabajos de AWS Glue, rastreadores y desencadenantes relacionados. El flujo de trabajo se crea en Lake Formation y se ejecuta en el servicio AWS Glue. Lake Formation puede seguir el estado de un flujo de trabajo como una entidad única.

Cuando define un flujo de trabajo, selecciona el esquema en el que se basa. A continuación, puede ejecutar flujos de trabajo a petición o según un calendario.

Los flujos de trabajo que cree en Lake Formation son visibles en la consola AWS Glue como un gráfico acíclico dirigido (DAG). Utilizando el DAG, puede seguir el progreso del flujo de trabajo y solucionar problemas.

Data Catalog

El Catálogo de datos es su almacén persistente de metadatos. Se trata de un servicio administrado para almacenar, anotar y compartir metadatos en la nube de AWS del mismo modo que lo haría en un metaalmacén de Apache Hive. Proporciona un repositorio uniforme donde los sistemas dispares pueden almacenar y encontrar metadatos para rastrear los datos en silos de datos, y luego utilizar esos metadatos para consultar y transformar los datos. Lake Formation utiliza el Catálogo de datos AWS Glue para almacenar metadatos sobre lagos de datos, orígenes de datos, transformaciones y objetivos.

Los metadatos sobre orígenes de datos y objetivos se presentan en forma de bases de datos y tablas. Las tablas almacenan información sobre el esquema, la ubicación, etc. Las bases de datos son colecciones de tablas. Lake Formation proporciona una jerarquía de permisos para controlar el acceso a las bases de datos y tablas del Catálogo de datos.

Cada cuenta AWS dispone de un Catálogo de datos por región de AWS.

Datos subyacentes

Los datos subyacentes se refieren a los datos de origen o datos dentro de los lagos de datos a los que apuntan las tablas del Catálogo de datos.

Principal

Una entidad principal es un usuario o rol de AWS Identity and Access Management (IAM) o un usuario de Active Directory.

Administrador de lago de datos

Un administrador de un lago de datos es una entidad principal que puede conceder a cualquier entidad principal (incluida la propia) permisos sobre cualquier recurso o ubicación de datos del Catálogo de datos. Designe a un administrador del lago de datos como primer usuario del Catálogo de datos. Este usuario puede entonces conceder permisos más específicos de recursos a otras entidades principales.

nota

Los usuarios administrativos de IAM —usuarios con la política administrada AdministratorAccess de AWS— no son automáticamente administradores del lago de datos. Por ejemplo, no pueden conceder permisos de Lake Formation sobre objetos del catálogo a menos que se les hayan concedido permisos para hacerlo. Sin embargo, pueden utilizar la consola de Lake Formation o la API para designarse como administradores del lago de datos.

Para obtener información sobre las capacidades de un administrador de lago de datos, consulte Permisos implícitos de Lake Formation. Para obtener información sobre la designación de un usuario como administrador del lago de datos, consulte Crear un administrador de lago de datos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Componentes de Lake Formation

Integraciones de servicios de AWS con Lake Formation