Consideraciones y limitaciones
Tenga en cuenta las siguientes consideraciones y limitaciones cuando utilice Lake Formation con Amazon EMR en EKS:
Amazon EMR en EKS admite un control de acceso detallado a través de Lake Formation solo para las tablas de Apache Hive, Apache Iceberg, Apache Hud y Delta. Los formatos de Apache Hive incluyen Parquet, ORC y xSV.
DynamicResourceAllocationestá habilitado de forma predeterminada, no puede deshabilitarDynamicResourceAllocationpara los trabajos de Lake formation. Como el valor predeterminado de la configuración DRAspark.dynamicAllocation.maxExecutorses infinito, configure un valor adecuado en función de su carga de trabajo.Los trabajos habilitados para Lake Formation no admiten el uso de EMR personalizado en imágenes EKS con los controladores y ejecutores de sistema.
Solo puede utilizar Lake Formation con trabajos de Spark.
EMR en EKS con Lake Formation solo admite una única sesión de Spark durante un trabajo.
EMR en EKS con Lake Formation solo admite consultas de tablas entre cuentas compartidas a través de enlaces de recursos.
Lo siguiente no es compatible:
Conjuntos de datos distribuidos resilientes (RDD)
Streaming de Spark
Lectura con permisos concedidos de Lake Formation
Control de acceso para columnas anidadas
EMR en EKS bloquea las funcionalidades que podrían socavar el aislamiento total del controlador del sistema, incluidas las siguientes:
UDT, HiveUDFS y cualquier función definida por el usuario que incluya clases personalizadas
Orígenes de datos personalizados
Suministro de archivos jar adicionales para la extensión, el conector o el comando de metaalmacén
ANALYZE TABLEde Spark
Para hacer cumplir los controles de acceso,
EXPLAIN PLANy las operaciones de DDL, comoDESCRIBE TABLE, no exponen información restringida.Amazon EMR en EKS restringe el acceso a los registros de Spark del controlador del sistema en los trabajos habilitados para Lake Formation. Dado que el controlador del sistema se ejecuta con más acceso, los eventos y registros que genera el controlador del sistema pueden incluir información confidencial. Para evitar que usuarios o códigos no autorizados accedan a esta información confidencial, EMR en EKS deshabilitó el acceso a los registros de los controladores del sistema. Para solucionar problemas, póngase en contacto con la asistencia técnica de AWS.
Si ha registrado una ubicación de tabla en Lake Formation, la ruta de acceso a los datos pasa por las credenciales almacenadas de Lake Formation, independientemente del permiso de IAM para el rol de ejecución de trabajos de EMR en EKS. Si configura incorrectamente el rol registrado con la ubicación de la tabla, los trabajos enviados que usen el rol con permisos de IAM de S3 para la ubicación de la tabla fallarán.
Para escribir en una tabla de Lake Formation se utiliza el permiso de IAM en lugar de los permisos concedidos por Lake Formation. Si el rol de ejecución de su trabajo tiene los permisos de S3 necesarios, puede usarlo para ejecutar operaciones de escritura.
A continuación, se indican las consideraciones y limitaciones cuando se utiliza Apache Iceberg:
Solo puede usar Apache Iceberg con el catálogo de sesiones y no con catálogos con nombres arbitrarios.
Las tablas de Iceberg que están registradas en Lake Formation solo admiten las tablas de metadatos
history,metadata_log_entries,snapshots,files,manifestsyrefs. Amazon EMR oculta las columnas que pueden contener datos confidenciales, comopartitions,pathysummaries. Esta limitación no se aplica a las tablas de Iceberg que no estén registradas en Lake Formation.Las tablas que no se registran en Lake Formation admiten todos los procedimientos almacenados de Iceberg. Los procedimientos
register_tableymigrateno son compatibles con ninguna tabla.Recomendamos utilizar Iceberg DataFrameWriterV2 en lugar de V1.
Para obtener más información, consulte Understanding Amazon EMR on EKS concepts and terminology y Enable cluster access for Amazon EMR on EKS.
Exención de responsabilidad para los administradores de datos
nota
Al conceder acceso a los recursos de Lake Formation a un rol de IAM para EMR en EKS, debe asegurarse de que el administrador u operador del clúster de EMR sea un administrador de confianza. Esto es particularmente relevante para los recursos de Lake Formation que se comparten entre varias organizaciones y cuentas de AWS.
Responsabilidades de los administradores de EKS
El espacio de nombres
Systemdebe estar protegido. No se permitirá que ningún usuario, recurso, entidad o herramienta tenga permisos RBAC de Kubernetes en los recursos de Kubernetes del espacio de nombresSystem.Ningún usuario, recurso o entidad, excepto el servicio EMR en EKS, debe tener acceso a
CREATEacceso a POD, CONFIG_MAP y SECRET en el espacio de nombresUser.Systemcontroladores ySystemejecutores contienen información confidencial. Por lo tanto, los eventos de Spark, los registros de los controladores de Spark y los registros de los ejecutores de Spark del espacio de nombresSystemno deberían reenviarse a sistemas de almacenamiento de registros externos.