Considerações e limitações
Observe as seguintes considerações e limitações ao usar o Lake Formation com o Amazon EMR no EKS:
O Amazon EMR no EKS oferece suporte ao controle de acesso refinado por meio do Lake Formation apenas para os formatos de tabela Apache Hive, tabela do Iceberg, Apache Hudi e Delta. Os formatos do Apache Hive incluem Parquet, ORC e xSV.
DynamicResourceAllocationestá habilitado por padrão eDynamicResourceAllocationnão pode ser desabilitado para trabalhos do Lake Formation. Como o valor padrão da configuraçãospark.dynamicAllocation.maxExecutorsdo DRA é infinito, configure um valor adequado com base na sua workload.Trabalhos habilitados para Lake Formation não são compatíveis com o uso de imagens personalizadas do EMR no EKS no driver do sistema e nos executores do sistema.
Você só pode usar o Lake Formation com trabalhos do Spark.
O EMR no EKS with Lake Formation oferece suporte apenas a uma única sessão do Spark durante todo o trabalho.
O EMR no EKS com Lake Formation só oferece suporte a consultas de tabelas entre contas compartilhadas por meio de links de recursos.
As seguintes opções não são compatíveis:
Conjuntos de dados distribuídos resilientes (RDD)
Streaming do Spark
Gravação com as permissões concedidas pelo Lake Formation
Controle de acesso para colunas aninhadas
O EMR no EKS bloqueia funcionalidades que podem prejudicar o isolamento completo do driver do sistema, incluindo as seguintes:
UDTs, HiveUDFs e qualquer função definida pelo usuário que envolva classes personalizadas
Fontes de dados personalizadas
Fornecimento de JARs adicionais para o comando
ANALYZE TABLEda extensão, conector ou metastore do Spark
Para impor controles de acesso,
EXPLAIN PLANe operações de DDL, comoDESCRIBE TABLE, não expõem informações restritas.O Amazon EMR no EKS restringe o acesso aos logs do driver do sistema Spark em trabalhos habilitados para o Lake Formation. Como o driver do sistema é executado com mais acesso, os eventos e logs que o driver do sistema gera podem incluir informações confidenciais. Para evitar que usuários ou códigos não autorizados acessem esses dados confidenciais, o EMR no EKS desabilitou o acesso aos logs do driver do sistema. Para solucionar problemas, entre em contato com o suporte da AWS.
Se você tiver registrado um local de tabela com o Lake Formation, o caminho de acesso aos dados passa pelas credenciais armazenadas no Lake Formation, independentemente da permissão do IAM para o perfil de execução de tarefas do EMR no EKS. Se você configurar incorretamente o perfil registrado com a localização da tabela, os trabalhos enviados que usam o perfil com a permissão do IAM para o S3 na localização da tabela falharão.
Gravar em uma tabela do Lake Formation usa a permissão do IAM em vez das permissões concedidas pelo Lake Formation. Se o perfil de execução do trabalho tiver as permissões necessárias do S3, será possível usá-lo para executar operações de gravação.
Observe estas considerações e limitações ao usar o Apache Iceberg:
Você só pode usar o Apache Iceberg com o catálogo de sessões e não com catálogos nomeados arbitrariamente.
As tabelas do Iceberg registradas no Lake Formation oferecem suporte apenas às tabelas de metadados
history,metadata_log_entries,snapshots,files,manifestserefs. O Amazon EMR oculta as colunas que podem conter dados confidenciais, comopartitions,pathesummaries. Essa limitação não se aplica às tabelas do Iceberg que não estão registradas no Lake Formation.As tabelas que você não registra no Lake Formation oferecem suporte a todos os procedimentos armazenados do Iceberg. Os procedimentos
register_tableemigratenão são compatíveis com nenhuma tabela.Recomendamos usar o Iceberg DataFrameWriterV2 em vez do V1.
Para obter mais informações, consulte Noções básicas sobre os conceitos e a terminologia do Amazon EMR no EKS e Habilitar acesso ao cluster para o Amazon EMR no EKS.
Aviso legal para administradores de dados
nota
Ao conceder acesso aos recursos do Lake Formation a um perfil do IAM para o EMR no EKS, você deve garantir que o administrador ou operador do cluster do EMR seja um administrador confiável. Isso é particularmente relevante para os recursos do Lake Formation que são compartilhados entre várias organizações e contas da AWS.
Responsabilidades dos administradores do EKS
O namespace
Systemdeve ser protegido. Nenhum usuário, recurso, entidade ou ferramenta teria permissão para ter quaisquer permissões de RBAC do Kubernetes sobre os recursos do Kubernetes no namespaceSystem.Nenhum usuário, recurso ou entidade, exceto o serviço EMR no EKS, deve ter acesso a
CREATEpara POD, CONFIG_MAP e SECRET no namespaceUser.Drivers
Systeme executoresSystemcontêm dados sensíveis. Portanto, eventos Spark, logs de driver Spark e logs de executor Spark no namespaceSystemnão devem ser encaminhados para sistemas externos de armazenamento de logs.