As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Considerações sobre o Amazon EMR com o Lake Formation
Considere o seguinte ao usar o Amazon EMR com. AWS Lake Formation
O Amazon EMR com Lake Formation está disponível em todas as regiões disponíveis.
-
O Amazon EMR oferece suporte ao controle de acesso refinado via Lake Formation somente para tabelas Apache Hive e Apache Iceberg. Os formatos do Apache Hive incluem Parquet, ORC e xSV.
-
Você não pode desativar
DynamicResourceAllocation
para trabalhos do Lake Formation. -
Você só pode usar o Lake Formation com trabalhos do Spark.
-
O Amazon EMR com Lake Formation só oferece suporte a uma única sessão do Spark durante todo o trabalho.
-
O Amazon EMR com Lake Formation só oferece suporte a consultas de tabelas entre contas compartilhadas por meio de links de recursos.
-
As seguintes opções não são compatíveis:
-
Conjuntos de dados distribuídos resilientes (RDD)
-
Streaming do Spark
-
Gravação com as permissões concedidas pelo Lake Formation
-
Controle de acesso para colunas aninhadas
-
-
O Amazon EMR bloqueia funcionalidades que podem prejudicar o isolamento completo do driver do sistema, incluindo as seguintes:
-
UDTs, Hive UDFs e qualquer função definida pelo usuário que envolva classes personalizadas
-
Fontes de dados personalizadas
-
Fornecimento de JARs adicionais para extensão, conector ou metastore do Spark
-
Comando
ANALYZE TABLE
-
-
Para impor controles de acesso,
EXPLAIN PLAN
e operações de DDL, comoDESCRIBE TABLE
, não expõem informações restritas. -
O Amazon EMR restringe o acesso aos registros do Spark do driver do sistema em aplicativos habilitados para Lake Formation. Como o driver do sistema é executado com permissões elevadas, os eventos e registros que o driver do sistema gera podem incluir informações confidenciais. Para evitar que usuários ou códigos não autorizados acessem esses dados confidenciais, o Amazon EMR desativa o acesso aos registros do driver do sistema.
Os registros do perfil do sistema são sempre mantidos no armazenamento gerenciado — essa é uma configuração obrigatória que não pode ser desativada. Esses registros são armazenados com segurança e criptografados usando uma chave KMS gerenciada pelo cliente ou uma chave KMS AWS gerenciada.
Se seu aplicativo Amazon EMR estiver em uma sub-rede privada com endpoints VPC para o Amazon S3 e você anexar uma política de endpoint para controlar o acesso, antes que seus trabalhos possam enviar dados de log para o AWS Amazon S3 gerenciado, você deve incluir as permissões detalhadas em Armazenamento gerenciado em sua política de VPC para o endpoint do gateway S3. Para solicitações de solução de problemas, entre em contato com AWS o suporte.
-
Se você registrou uma localização de tabela no Lake Formation, o caminho de acesso aos dados passa pelas credenciais armazenadas do Lake Formation, independentemente da permissão do IAM para a função de tempo de execução do trabalho do Amazon EMR. Se você configurar incorretamente o perfil registrado com a localização da tabela, os trabalhos enviados que usam o perfil com a permissão do IAM para o S3 na localização da tabela falharão.
-
Gravar em uma tabela do Lake Formation usa a permissão do IAM em vez das permissões concedidas pelo Lake Formation. Se o runtime do trabalho tiver as permissões necessárias do S3, será possível usá-lo para executar operações de gravação.
Observe estas considerações e limitações ao usar o Apache Iceberg:
-
Você só pode usar o Apache Iceberg com o catálogo de sessões e não com catálogos nomeados arbitrariamente.
-
As tabelas do Iceberg registradas no Lake Formation oferecem suporte apenas às tabelas de metadados
history
,metadata_log_entries
,snapshots
,files
,manifests
erefs
. O Amazon EMR oculta as colunas que podem conter dados confidenciais, comopartitions
,path
esummaries
. Essa limitação não se aplica às tabelas do Iceberg que não estão registradas no Lake Formation. -
As tabelas que você não registra no Lake Formation oferecem suporte a todos os procedimentos armazenados do Iceberg. Os procedimentos
register_table
emigrate
não são compatíveis com nenhuma tabela. -
Recomendamos que você use o Iceberg DataFrameWriter V2 em vez do V1.
-
O EMR 7.10 fornece uma maneira de voltar para o RecordServer caso de você desejar usar recursos suportados pelo FGAC nativo RecordServer, mas ainda não suportados pelo FGAC, como o writeback para tabelas registradas do Lake Formation. Para voltar, especifique as seguintes configurações ao iniciar o cluster.
{ "Classification": "spark-defaults", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }, { "Classification": "yarn-site", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }