Considerações e limitações - Amazon EMR

Considerações e limitações

Observe as seguintes considerações e limitações ao usar o Lake Formation com o Amazon EMR no EKS:

  • O Amazon EMR no EKS oferece suporte ao controle de acesso refinado por meio do Lake Formation apenas para os formatos de tabela Apache Hive, tabela do Iceberg, Apache Hudi e Delta. Os formatos do Apache Hive incluem Parquet, ORC e xSV.

  • DynamicResourceAllocation está habilitado por padrão e DynamicResourceAllocation não pode ser desabilitado para trabalhos do Lake Formation. Como o valor padrão da configuração spark.dynamicAllocation.maxExecutors do DRA é infinito, configure um valor adequado com base na sua workload.

  • Trabalhos habilitados para Lake Formation não são compatíveis com o uso de imagens personalizadas do EMR no EKS no driver do sistema e nos executores do sistema.

  • Você só pode usar o Lake Formation com trabalhos do Spark.

  • O EMR no EKS with Lake Formation oferece suporte apenas a uma única sessão do Spark durante todo o trabalho.

  • O EMR no EKS com Lake Formation só oferece suporte a consultas de tabelas entre contas compartilhadas por meio de links de recursos.

  • As seguintes opções não são compatíveis:

    • Conjuntos de dados distribuídos resilientes (RDD)

    • Streaming do Spark

    • Gravação com as permissões concedidas pelo Lake Formation

    • Controle de acesso para colunas aninhadas

  • O EMR no EKS bloqueia funcionalidades que podem prejudicar o isolamento completo do driver do sistema, incluindo as seguintes:

    • UDTs, HiveUDFs e qualquer função definida pelo usuário que envolva classes personalizadas

    • Fontes de dados personalizadas

    • Fornecimento de JARs adicionais para o comando ANALYZE TABLE da extensão, conector ou metastore do Spark

  • Para impor controles de acesso, EXPLAIN PLAN e operações de DDL, como DESCRIBE TABLE, não expõem informações restritas.

  • O Amazon EMR no EKS restringe o acesso aos logs do driver do sistema Spark em trabalhos habilitados para o Lake Formation. Como o driver do sistema é executado com mais acesso, os eventos e logs que o driver do sistema gera podem incluir informações confidenciais. Para evitar que usuários ou códigos não autorizados acessem esses dados confidenciais, o EMR no EKS desabilitou o acesso aos logs do driver do sistema. Para solucionar problemas, entre em contato com o suporte da AWS.

  • Se você tiver registrado um local de tabela com o Lake Formation, o caminho de acesso aos dados passa pelas credenciais armazenadas no Lake Formation, independentemente da permissão do IAM para o perfil de execução de tarefas do EMR no EKS. Se você configurar incorretamente o perfil registrado com a localização da tabela, os trabalhos enviados que usam o perfil com a permissão do IAM para o S3 na localização da tabela falharão.

  • Gravar em uma tabela do Lake Formation usa a permissão do IAM em vez das permissões concedidas pelo Lake Formation. Se o perfil de execução do trabalho tiver as permissões necessárias do S3, será possível usá-lo para executar operações de gravação.

Observe estas considerações e limitações ao usar o Apache Iceberg:

  • Você só pode usar o Apache Iceberg com o catálogo de sessões e não com catálogos nomeados arbitrariamente.

  • As tabelas do Iceberg registradas no Lake Formation oferecem suporte apenas às tabelas de metadados history, metadata_log_entries, snapshots, files, manifests e refs. O Amazon EMR oculta as colunas que podem conter dados confidenciais, como partitions, path e summaries. Essa limitação não se aplica às tabelas do Iceberg que não estão registradas no Lake Formation.

  • As tabelas que você não registra no Lake Formation oferecem suporte a todos os procedimentos armazenados do Iceberg. Os procedimentos register_table e migrate não são compatíveis com nenhuma tabela.

  • Recomendamos usar o Iceberg DataFrameWriterV2 em vez do V1.

Para obter mais informações, consulte Noções básicas sobre os conceitos e a terminologia do Amazon EMR no EKS e Habilitar acesso ao cluster para o Amazon EMR no EKS.

Aviso legal para administradores de dados

nota

Ao conceder acesso aos recursos do Lake Formation a um perfil do IAM para o EMR no EKS, você deve garantir que o administrador ou operador do cluster do EMR seja um administrador confiável. Isso é particularmente relevante para os recursos do Lake Formation que são compartilhados entre várias organizações e contas da AWS.

Responsabilidades dos administradores do EKS

  • O namespace System deve ser protegido. Nenhum usuário, recurso, entidade ou ferramenta teria permissão para ter quaisquer permissões de RBAC do Kubernetes sobre os recursos do Kubernetes no namespace System.

  • Nenhum usuário, recurso ou entidade, exceto o serviço EMR no EKS, deve ter acesso a CREATE para POD, CONFIG_MAP e SECRET no namespace User.

  • Drivers System e executores System contêm dados sensíveis. Portanto, eventos Spark, logs de driver Spark e logs de executor Spark no namespace System não devem ser encaminhados para sistemas externos de armazenamento de logs.