As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Considerações e limitações
Observe as seguintes considerações e limitações ao usar o Lake Formation com o Amazon EMR no EKS:
O Amazon EMR no EKS oferece suporte ao controle de acesso refinado via Lake Formation somente para os formatos de tabela Apache Hive, Apache Iceberg, Apache Hudi e Delta. Os formatos do Apache Hive incluem Parquet, ORC e xSV.
DynamicResourceAllocation
está ativado por padrão e você não pode desativarDynamicResourceAllocation
os trabalhos do Lake Formation. Como o valor padrão daspark.dynamicAllocation.maxExecutors
configuração do DRA é infinito, configure um valor apropriado com base na sua carga de trabalho.As tarefas habilitadas para Lake Formation não oferecem suporte ao uso de EMR personalizado em imagens EKS no driver do sistema e nos executores do sistema.
Você só pode usar o Lake Formation com trabalhos do Spark.
O EMR no EKS com Lake Formation suporta apenas uma única sessão do Spark durante todo o trabalho.
O EMR no EKS com Lake Formation só oferece suporte a consultas de tabelas entre contas compartilhadas por meio de links de recursos.
As seguintes opções não são compatíveis:
Conjuntos de dados distribuídos resilientes (RDD)
Streaming do Spark
Gravação com as permissões concedidas pelo Lake Formation
Controle de acesso para colunas aninhadas
O EMR no EKS bloqueia funcionalidades que podem prejudicar o isolamento completo do driver do sistema, incluindo as seguintes:
UDTs, Hive UDFs e qualquer função definida pelo usuário que envolva classes personalizadas
Fontes de dados personalizadas
Fornecimento de frascos adicionais para extensão, conector ou comando de metastore do Spark
ANALYZE TABLE
Para impor controles de acesso,
EXPLAIN PLAN
e operações de DDL, comoDESCRIBE TABLE
, não expõem informações restritas.O Amazon EMR no EKS restringe o acesso aos registros do Spark do driver do sistema em trabalhos habilitados para Lake Formation. Como o driver do sistema é executado com mais acesso, os eventos e logs que o driver do sistema gera podem incluir informações confidenciais. Para evitar que usuários ou códigos não autorizados acessem esses dados confidenciais, o EMR no EKS desativou o acesso aos registros do driver do sistema. Para solucionar problemas, entre em contato com AWS o suporte.
Se você registrou uma localização de tabela no Lake Formation, o caminho de acesso aos dados passa pelas credenciais armazenadas do Lake Formation, independentemente da permissão do IAM para a função de execução de tarefas do EMR no EKS. Se você configurar incorretamente a função registrada com o local da tabela, os trabalhos enviados que usam a função com a permissão do S3 IAM para o local da tabela falharão.
Gravar em uma tabela do Lake Formation usa a permissão do IAM em vez das permissões concedidas pelo Lake Formation. Se sua função de execução de tarefas tiver as permissões necessárias do S3, você poderá usá-la para executar operações de gravação.
Observe estas considerações e limitações ao usar o Apache Iceberg:
Você só pode usar o Apache Iceberg com o catálogo de sessões e não com catálogos nomeados arbitrariamente.
As tabelas do Iceberg registradas no Lake Formation oferecem suporte apenas às tabelas de metadados
history
,metadata_log_entries
,snapshots
,files
,manifests
erefs
. O Amazon EMR oculta as colunas que podem conter dados confidenciais, comopartitions
,path
esummaries
. Essa limitação não se aplica às tabelas do Iceberg que não estão registradas no Lake Formation.As tabelas que você não registra no Lake Formation oferecem suporte a todos os procedimentos armazenados do Iceberg. Os procedimentos
register_table
emigrate
não são compatíveis com nenhuma tabela.Recomendamos que você use o Iceberg DataFrameWriter V2 em vez do V1.
Para obter mais informações, consulte Entendendo os conceitos e a terminologia do Amazon EMR no EKS e Habilitar o acesso ao cluster para o Amazon EMR no EKS.
Aviso legal para administradores de dados
nota
Ao conceder acesso aos recursos do Lake Formation a uma função do IAM para o EMR no EKS, você deve garantir que o administrador ou operador do cluster do EMR seja um administrador confiável. Isso é particularmente relevante para os recursos do Lake Formation que são compartilhados entre várias organizações e AWS contas.
Responsabilidades dos administradores do EKS
O
System
namespace deve ser protegido. Nenhum usuário, recurso, entidade ou ferramenta teria permissão para ter qualquer permissão RBAC do Kubernetes nos recursos do Kubernetes no namespace.System
Nenhum usuário, recurso ou entidade, exceto o EMR no serviço EKS, deve ter
CREATE
acesso ao POD, CONFIG_MAP e SECRET no namespace.User
System
drivers eSystem
executores contêm dados confidenciais. Portanto, os eventos do Spark, os registros do driver do Spark e os registros do executor do Spark noSystem
namespace não devem ser encaminhados para sistemas externos de armazenamento de registros.