Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de AWS Lake Formation con AWS Glue
Los ingenieros de datos y los profesionales de DevOps utilizan AWS Glue con extracción, transformación y carga (ETL) con Apache Spark para efectuar transformaciones en sus conjuntos de datos en Amazon S3 y cargar los datos transformados en lagos de datos y almacenamientos de datos para el análisis, el machine learning y el desarrollo de aplicaciones. Dado que diferentes equipos acceden al mismo conjunto de datos en Amazon S3, es imprescindible conceder y restringir los permisos en función de sus roles.
AWS Lake Formation se basa en AWS Glue, y los servicios interactúan de las siguientes maneras:
-
Lake Formation y AWS Glue comparten el mismo Catálogo de datos.
-
Las siguientes características de la consola de Lake Formation invocan la consola de AWS Glue:
-
Trabajos: para obtener más información, consulte Agregar trabajos en la Guía para desarrolladores de AWS Glue.
-
Rastreadores: para obtener más información, consulte la sección Catalogación de tablas con un rastreador en la Guía para desarrolladores de AWS Glue.
-
-
Los flujos de trabajo que se generan cuando se utiliza un esquema AWS Gluede Lake Formation son flujos de trabajo de . Puede ver y gestionar estos flujos de trabajo tanto en la consola de Lake Formation como en la consola de AWS Glue.
-
Las transformaciones de machine learning se proporcionan con Lake Formation y se basan en las operaciones de la API de AWS Glue. Puede crear y administrar transformaciones de machine learning en la consola de AWS Glue. Para obtener más información, consulte Transformaciones de machine learning en la Guía para desarrolladores de AWS Glue.
Puede utilizar el control de acceso detallado de Lake Formation para gestionar los recursos del Catálogo de datos existentes y las ubicaciones de datos de Amazon S3.
nota
AWS Glue 5.0 y versiones posteriores admiten los controles de acceso detallados en las tablas Iceberg y Hive respaldadas por S3. Esta capacidad le permite configurar los controles de acceso en el nivel de tabla, fila, columna y celda para las consultas de lectura en AWS Glue para los trabajos de Apache Spark.
Compatibilidad con tipos de tablas transaccionales
Con los permisos de Lake Formation puede proteger sus datos transaccionales en sus lagos de datos basados en Amazon S3. La tabla siguiente enumera los formatos de tablas transaccionales admitidos en AWS Glue y los permisos de Lake Formation. Lake Formation hace cumplir estos permisos para las operaciones de AWS Glue.
| Formato de tabla | Descripción y operaciones permitidas | Permisos de Lake Formation admitidos en AWS Glue |
|---|---|---|
|
Apache Hudi |
Formato de tabla abierta para simplificar el procesamiento incremental de datos y el desarrollo de canalizaciones de datos. Para ver ejemplos, consulte Uso del marco de Hudi en AWS Glue. |
Los permisos a nivel de tabla están disponibles para las tablas Hudi. Para obtener más información, consulte la sección sobre Límites. |
|
Apache Iceberg |
Formato de tabla abierta que gestiona grandes colecciones de archivos como tablas. Para ver ejemplos, consulte Uso del marco de Iceberg en AWS Glue. |
AWS Glue 5.0 y versiones posteriores permiten configurar los controles de acceso en el nivel de tabla, fila, columna y celda para las consultas de lectura en AWS Glue para los trabajos de Apache Spark para tablas Iceberg. Para obtener más información, consulte la sección sobre Límites. |
|
Linux Foundation Delta Lake |
Delta Lake es un proyecto de código abierto que ayuda a implementar arquitecturas de lago de datos modernos comúnmente construidas sobre Amazon S3 o el Sistema de archivos distribuido de Hadoop (HDFS). Para ver ejemplos, consulte Uso del marco de Delta Lake en AWS Glue. |
Los permisos a nivel de tabla están disponibles para las tablas Delta Lake. Para obtener más información, consulte la sección sobre Límites. |
Recursos adicionales
Publicaciones de blog y repositorios
-
Escribir en tablas Apache Hudi con conectores personalizados de AWS Glue
-
Repositorio AWS de plantilla de Cloudformation y ejemplo de código pyspark
para analizar los datos de streaming mediante AWS Glue, Apache Hudi y Amazon S3.