Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Consideraciones sobre Amazon EMR con Lake Formation
Amazon EMR con Lake Formation está disponible en todas las regiones disponibles.
Consideraciones para Amazon EMR con Lake Formation en la versión 7.9 y anteriores
Tenga en cuenta lo siguiente cuando lo utilice AWS Lake Formation en EMR 7.9 y versiones anteriores.
-
El control de acceso detallado a nivel de fila, columna y celda está disponible en los clústeres con las versiones 6.15 y posteriores de Amazon EMR.
-
Los usuarios con acceso a una tabla pueden acceder a todas las propiedades de esa tabla. Si tiene un control de acceso basado en Lake Formation en una tabla, revísela para asegurarse de que las propiedades no contengan ningún dato o información confidencial.
-
Los clústeres de Amazon EMR con Lake Formation no admiten el uso alternativo de HDFS cuando Spark recopile estadísticas de tablas. Por lo general, esto ayuda a optimizar el rendimiento de las consultas.
-
Las operaciones compatibles con los controles de acceso basados en Lake Formation con tablas no gobernadas de Apache Spark incluyen
INSERT INTOyINSERT OVERWRITE. -
Las operaciones que admiten los controles de acceso basados en Lake Formation con Apache Spark y Apache Hive incluyen
SELECT,DESCRIBE,SHOW DATABASE,SHOW TABLE,SHOW COLUMNySHOW PARTITION. -
Amazon EMR no es compatible con el control de acceso a las siguientes operaciones basadas en Lake Formation:
-
Escribe en tablas gobernadas
-
Amazon EMR no es compatible con
CREATE TABLE. Amazon EMR 6.10.0 y versiones posteriores es compatible conALTER TABLE. -
Instrucciones DML distintas de los comandos
INSERT.
-
-
Existen diferencias de rendimiento entre la misma consulta con y sin control de acceso basado en Lake Formation.
-
Solo puede utilizar Amazon EMR con Lake Formation para trabajos de Spark.
-
La propagación de identidades de confianza no funciona con jerarquías de múltiples catálogos en Catálogo de datos de Glue. Para obtener más información, consulte Trabajar con una jerarquía de varios catálogos en AWS Glue Data Catalog.
Consideraciones para Amazon EMR con Lake Formation en la versión 7.10 y posteriores
Tenga en cuenta lo siguiente cuando utilice Amazon EMR con AWS Lake Formation EMR 7.10 y versiones posteriores.
-
Amazon EMR admite controles de acceso detallados mediante Lake Formation únicamente para tablas de Apache Hive, Apache Iceberg, Apache Delta y Apache Hudi. Los formatos de Apache Hive incluyen Parquet, ORC y xSV CSV.
-
En aplicaciones habilitadas para Lake Formation, Spark escribe los registros en Amazon S3 en dos grupos: registros de espacio del sistema y registros de espacio de usuario. Los registros de espacio del sistema pueden incluir información sensible, como el esquema completo de la tabla. Para proteger estos datos, Amazon EMR guarda los registros de espacio del sistema en una ubicación distinta de los registros de espacio de usuario. Se recomienda enfáticamente que los administradores de la cuenta no otorguen acceso a los registros de espacio del sistema.
-
Cuando registra la ubicación de una tabla en Lake Formation, los permisos del rol usado para registrar la tabla controlan por completo el acceso a los datos, en lugar del rol de tiempo de ejecución del trabajo de Amazon EMR. Si el rol de registro está configurado de forma incorrecta, los trabajos que intenten acceder a la tabla fallarán.
-
No puede desactivar
DynamicResourceAllocationpara los trabajos de Lake Formation. -
Solo puede utilizar Lake Formation con trabajos de Spark.
-
Amazon EMR con Lake Formation admite únicamente una sesión de Spark durante todo el trabajo.
-
Amazon EMR con Lake Formation solo admite consultas de tablas entre cuentas compartidas a través de enlaces de recursos.
-
Lo siguiente no es compatible:
-
Conjuntos de datos distribuidos resilientes (RDD)
-
Streaming de Spark
-
Lectura con permisos concedidos de Lake Formation
-
Control de acceso para columnas anidadas
-
-
Amazon EMR bloquea las funcionalidades que podrían socavar el aislamiento total del controlador del sistema, incluidas las siguientes:
-
UDTs, Hive UDFs y cualquier función definida por el usuario que incluya clases personalizadas
-
Orígenes de datos personalizados
-
Suministro de archivos jar adicionales para la extensión, el conector o el metaalmacén de Spark
-
ANALYZE TABLEcommand
-
-
Para hacer cumplir los controles de acceso,
EXPLAIN PLANy las operaciones de DDL, comoDESCRIBE TABLE, no exponen información restringida. -
Amazon EMR restringe el acceso a los registros de Spark del controlador del sistema en las aplicaciones habilitadas para Lake Formation. Dado que el controlador del sistema se ejecuta permisos elevados, los eventos y registros que genera el controlador del sistema pueden incluir información confidencial. Para impedir que usuarios no autorizados o código no autorizado accedan a esta información confidencial, Amazon EMR deshabilita el acceso a los registros del controlador del sistema.
Los registros de los perfiles del sistema siempre se conservan en el almacenamiento administrado; esta es una configuración obligatoria que no se puede deshabilitar. Estos registros se almacenan de forma segura y se cifran mediante una clave de KMS gestionada por el cliente o una clave de KMS AWS gestionada.
Si su aplicación de Amazon EMR se encuentra en una subred privada con puntos de enlace de VPC para Amazon S3 y adjunta una política de puntos de enlace para controlar el acceso, antes de que sus trabajos puedan enviar datos de registro a AWS Amazon S3 gestionado, debe incluir los permisos detallados en Almacenamiento gestionado en su política de VPC al punto de enlace de puerta de enlace de S3. Para solicitudes de solución de problemas, póngase en contacto con el servicio de asistencia AWS
-
Si ha registrado una ubicación de tabla en Lake Formation, la ruta de acceso a los datos pasa por las credenciales almacenadas de Lake Formation, independientemente del permiso de IAM para el rol de tiempo de ejecución de trabajos de Amazon EMR. Si configura incorrectamente el rol registrado con la ubicación de la tabla, los trabajos enviados que usen el rol con permisos de IAM de S3 para la ubicación de la tabla fallarán.
-
Para escribir en una tabla de Lake Formation se utiliza el permiso de IAM en lugar de los permisos concedidos por Lake Formation. Si el rol de tiempo de ejecución de su trabajo tiene los permisos de S3 necesarios, puede usarlo para ejecutar operaciones de escritura.
A continuación, se indican las consideraciones y limitaciones cuando se utiliza Apache Iceberg:
-
Solo puede usar Apache Iceberg con el catálogo de sesiones y no con catálogos con nombres arbitrarios.
-
Las tablas de Iceberg que están registradas en Lake Formation solo admiten las tablas de metadatos
history,metadata_log_entries,snapshots,files,manifestsyrefs. Amazon EMR oculta las columnas que pueden contener datos confidenciales, comopartitions,pathysummaries. Esta limitación no se aplica a las tablas de Iceberg que no estén registradas en Lake Formation. -
Las tablas que no se registran en Lake Formation admiten todos los procedimientos almacenados de Iceberg. Los procedimientos
register_tableymigrateno son compatibles con ninguna tabla. -
Le recomendamos que utilice Iceberg DataFrameWriter V2 en lugar de V1.
Consideraciones sobre Amazon EMR con Lake Formation para la versión 7.12 y versiones posteriores
General
Revise las siguientes limitaciones al utilizar Lake Formation con Amazon EMR.
-
No puede desactivar
DynamicResourceAllocationpara los trabajos de Lake Formation. -
Solo puede utilizar Lake Formation con trabajos de Spark.
-
Amazon EMR con Lake Formation admite únicamente una sesión de Spark durante todo el trabajo.
-
Amazon EMR con Lake Formation solo admite consultas de tablas entre cuentas compartidas a través de enlaces de recursos.
-
Lo siguiente no es compatible:
-
Conjuntos de datos distribuidos resilientes (RDD)
-
Streaming de Spark
-
Control de acceso para columnas anidadas
-
-
Amazon EMR bloquea las funcionalidades que podrían socavar el aislamiento total del controlador del sistema, incluidas las siguientes:
-
UDTs, Hive UDFs y cualquier función definida por el usuario que incluya clases personalizadas
-
Orígenes de datos personalizados
-
Suministro de archivos jar adicionales para la extensión, el conector o el metaalmacén de Spark
-
ANALYZE TABLEcommand
-
-
Si su aplicación de Amazon EMR se encuentra en una subred privada con puntos de enlace de VPC para Amazon S3 y adjunta una política de puntos de enlace para controlar el acceso, antes de que sus trabajos puedan enviar datos de registro a AWS Amazon S3 gestionado, debe incluir los permisos detallados en Almacenamiento gestionado en su política de VPC al punto de enlace de puerta de enlace de S3. Para solicitudes de solución de problemas, póngase en contacto con el servicio de asistencia AWS
-
A partir de Amazon EMR 7.9.0, el FGAC de Spark es compatible con el AFile sistema S3 cuando se utiliza con el esquema s3a://.
-
Amazon EMR 7.11 admite la creación de tablas administradas mediante CTAS.
-
Amazon EMR 7.12 admite la creación de tablas administradas y externas mediante CTAS.
Permisos
-
Para reforzar los controles de acceso, las operaciones EXPLAIN, PLAN y DDL, como DESCRIBE TABLE, no exponen información restringida.
-
Al registrar la ubicación de una tabla en Lake Formation, el acceso a los datos utiliza las credenciales almacenadas de Lake Formation en lugar de los permisos de IAM del rol de ejecución de tareas EMR Serverless. Los trabajos fallarán si el rol registrado para la ubicación de la tabla está mal configurado, incluso cuando el rol en tiempo de ejecución tenga permisos de IAM de S3 para esa ubicación.
-
A partir de Amazon EMR 7.12, puede escribir en las tablas Hive e Iceberg existentes utilizando DataFrameWriter (V2) con las credenciales de Lake Formation en modo de adición. Para las operaciones de sobrescritura o al crear nuevas tablas, EMR utiliza las credenciales del rol en tiempo de ejecución para modificar los datos de la tabla.
-
Se aplican las siguientes limitaciones cuando se utilizan vistas o tablas en caché como datos de origen (estas limitaciones no se aplican a las vistas del catálogo de datos de AWS Glue):
-
Para operaciones de fusión, eliminación y actualización
-
Compatible: uso de vistas y tablas almacenadas en caché como tablas de origen.
-
No se admite: usar vistas y tablas almacenadas en caché en las cláusulas de asignación y condición.
-
-
Para las operaciones CREATE OR REPLACE y REPLACE TABLE AS SELECT:
-
No se admite: usar vistas y tablas almacenadas en caché como tablas de origen.
-
-
-
Las tablas de Delta Lake con UDFs datos de origen admiten las operaciones MERGE, DELETE y UPDATE solo cuando el vector de eliminación está activado.
Registros y depuración
-
Amazon EMR restringe el acceso a los registros de Spark del controlador del sistema en las aplicaciones habilitadas para Lake Formation. Dado que el controlador del sistema se ejecuta permisos elevados, los eventos y registros que genera el controlador del sistema pueden incluir información confidencial. Para impedir que usuarios no autorizados o código no autorizado accedan a esta información confidencial, Amazon EMR deshabilita el acceso a los registros del controlador del sistema.
Los registros de los perfiles del sistema siempre se conservan en el almacenamiento administrado; esta es una configuración obligatoria que no se puede deshabilitar. Estos registros se almacenan de forma segura y se cifran mediante una clave de KMS gestionada por el cliente o una clave de KMS AWS gestionada.
Iceberg
Tenga en cuenta las siguientes consideraciones al utilizar Apache Iceberg:
-
Solo puede usar Apache Iceberg con el catálogo de sesiones y no con catálogos con nombres arbitrarios.
-
Las tablas de Iceberg que están registradas en Lake Formation solo admiten las tablas de metadatos
history,metadata_log_entries,snapshots,files,manifestsyrefs. Amazon EMR oculta las columnas que pueden contener datos confidenciales, comopartitions,pathysummaries. Esta limitación no se aplica a las tablas de Iceberg que no estén registradas en Lake Formation. -
Las tablas que no están registradas en Lake Formation admiten todos los procedimientos almacenados por Iceberg. Los procedimientos
register_tableymigrateno son compatibles con ninguna tabla. -
Le sugerimos que utilice Iceberg DataFrameWriter V2 en lugar de V1.