Consideraciones y limitaciones - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Consideraciones y limitaciones

Tenga en cuenta las siguientes consideraciones y limitaciones cuando utilice Lake Formation con Amazon EMR en EKS:

  • Amazon EMR en EKS admite un control de acceso detallado a través de Lake Formation solo para los formatos de tabla Apache Hive, Apache Iceberg, Apache Hudi y Delta. Los formatos de Apache Hive incluyen Parquet, ORC y xSV.

  • DynamicResourceAllocationestá activado de forma predeterminada y no se puede desactivar DynamicResourceAllocation para los trabajos de Lake Formation. Como el valor predeterminado de la spark.dynamicAllocation.maxExecutors configuración DRA es infinito, configure un valor adecuado en función de su carga de trabajo.

  • Los trabajos habilitados para Lake Formation no admiten el uso de EMR personalizados en las imágenes de EKS en los controladores y ejecutores del sistema.

  • Solo puede utilizar Lake Formation con trabajos de Spark.

  • El EMR en EKS con Lake Formation solo admite una sesión de Spark durante un trabajo.

  • EMR en EKS con Lake Formation solo admite consultas de tablas entre cuentas compartidas a través de enlaces de recursos.

  • Lo siguiente no es compatible:

    • Conjuntos de datos distribuidos resilientes (RDD)

    • Streaming de Spark

    • Lectura con permisos concedidos de Lake Formation

    • Control de acceso para columnas anidadas

  • El EMR en EKS bloquea las funcionalidades que podrían socavar el aislamiento total del controlador del sistema, incluidas las siguientes:

    • UDTs, Hive UDFs y cualquier función definida por el usuario que incluya clases personalizadas

    • Orígenes de datos personalizados

    • Suministro de tarros adicionales para la extensión, el conector o el comando metastore de Spark ANALYZE TABLE

  • Para hacer cumplir los controles de acceso, EXPLAIN PLAN y las operaciones de DDL, como DESCRIBE TABLE, no exponen información restringida.

  • Amazon EMR en EKS restringe el acceso a los registros de Spark del controlador del sistema en los trabajos habilitados para la formación de lagos. Dado que el controlador del sistema se ejecuta con más acceso, los eventos y registros que genera el controlador del sistema pueden incluir información confidencial. Para evitar que usuarios o códigos no autorizados accedan a estos datos confidenciales, EMR en EKS deshabilitó el acceso a los registros de los controladores del sistema. Para solucionar problemas, póngase en contacto con el servicio de AWS asistencia.

  • Si ha registrado una ubicación de tabla en Lake Formation, la ruta de acceso a los datos pasa por las credenciales almacenadas de Lake Formation, independientemente del permiso de IAM para la función de ejecución de tareas de EMR en EKS. Si configura mal el rol registrado con la ubicación de la tabla, se producirá un error en los trabajos enviados que utilicen el rol con el permiso de S3 IAM para acceder a la ubicación de la tabla.

  • Para escribir en una tabla de Lake Formation se utiliza el permiso de IAM en lugar de los permisos concedidos por Lake Formation. Si su función de ejecución de trabajos tiene los permisos de S3 necesarios, puede utilizarla para ejecutar operaciones de escritura.

A continuación, se indican las consideraciones y limitaciones cuando se utiliza Apache Iceberg:

  • Solo puede usar Apache Iceberg con el catálogo de sesiones y no con catálogos con nombres arbitrarios.

  • Las tablas de Iceberg que están registradas en Lake Formation solo admiten las tablas de metadatos history, metadata_log_entries, snapshots, files, manifests y refs. Amazon EMR oculta las columnas que pueden contener datos confidenciales, como partitions, path y summaries. Esta limitación no se aplica a las tablas de Iceberg que no estén registradas en Lake Formation.

  • Las tablas que no se registran en Lake Formation admiten todos los procedimientos almacenados de Iceberg. Los procedimientos register_table y migrate no son compatibles con ninguna tabla.

  • Le recomendamos que utilice Iceberg DataFrameWriter V2 en lugar de V1.

Para obtener más información, consulte Comprender los conceptos y la terminología de Amazon EMR en EKS y Habilitar el acceso a clústeres para Amazon EMR en EKS.

Exención de responsabilidad para los administradores de datos

nota

Al conceder acceso a los recursos de Lake Formation a una función de IAM para EMR en EKS, debe asegurarse de que el administrador u operador del clúster de EMR sea un administrador de confianza. Esto es particularmente relevante para los recursos de Lake Formation que se comparten entre varias organizaciones y AWS cuentas.

Responsabilidades de los administradores de EKS

  • El espacio de System nombres debe estar protegido. No se permitirá que ningún usuario, recurso, entidad o herramienta tenga permisos RBAC de Kubernetes en los recursos de Kubernetes del espacio de nombres. System

  • Ningún usuario, recurso o entidad, excepto el EMR en el servicio EKS, debe tener CREATE acceso a POD, CONFIG_MAP y SECRET en el espacio de nombres. User

  • Systemlos controladores y ejecutores contienen datos confidenciales. System Por lo tanto, los eventos de Spark, los registros de los controladores de Spark y los registros de los ejecutores de Spark del espacio de System nombres no deberían reenviarse a sistemas de almacenamiento de registros externos.