Usando o EMR Serverless com para controle de acesso refinado AWS Lake Formation - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando o EMR Serverless com para controle de acesso refinado AWS Lake Formation

Visão geral

Com as versões 7.2.0 e superiores do Amazon EMR, aproveite AWS Lake Formation para aplicar controles de acesso refinados em tabelas do catálogo de dados que são apoiadas pelo S3. Esse recurso permite configurar controles de acesso em nível de tabela, linha, coluna e célula para consultas de read nos trabalhos do Spark no Amazon EMR Sem Servidor. Para configurar um controle de acesso refinado para trabalhos em lote e sessões interativas do Apache Spark, use o EMR Studio. Consulte as seções a seguir para saber mais sobre o Lake Formation e como usá-lo com o EMR Sem Servidor.

O uso do Amazon EMR Serverless incorre em cobranças adicionais. AWS Lake Formation Para obter mais informações, consulte os preços do Amazon EMR.

Como o EMR Sem Servidor funciona com o AWS Lake Formation

Usar o EMR Sem Servidor com o Lake Formation permite impor uma camada de permissões em cada trabalho do Spark para aplicar o controle de permissões do Lake Formation quando o EMR Sem Servidor executa trabalhos. O EMR Sem Servidor usa perfis de recursos do Spark para criar dois perfis que executam trabalhos com eficiência. O perfil do usuário executa o código fornecido pelo usuário, enquanto o perfil do sistema impõe as políticas do Lake Formation. Para obter mais informações, consulte O que é AWS Lake Formation e Considerações e limitações.

Ao usar a capacidade pré-inicializada com o Lake Formation, sugerimos que você tenha no mínimo dois drivers Spark. Cada trabalho habilitado para o Lake Formation utiliza dois drivers do Spark, um para o perfil do usuário e outro para o perfil do sistema. Para obter o melhor desempenho, use o dobro do número de drivers para trabalhos habilitados para Lake Formation em comparação com aqueles que não usam Lake Formation.

Ao executar trabalhos do Spark no EMR Serverless, considere também o impacto da alocação dinâmica no gerenciamento de recursos e no desempenho do cluster. A configuração spark.dynamicAllocation.maxExecutors do número máximo de executores por perfil de recurso se aplica aos executores do usuário e do sistema. Se você configurar esse número para ser igual ao número máximo permitido de executores, a execução do trabalho poderá ficar paralisada devido a um tipo de executor que usa todos os recursos disponíveis, o que impede o outro executor ao executar trabalhos.

Para que você não fique sem recursos, o EMR Sem Servidor define o número máximo padrão de executores por perfil de recurso como 90% do valor de spark.dynamicAllocation.maxExecutors. Você pode substituir essa configuração ao especificar spark.dynamicAllocation.maxExecutorsRatio com um valor entre 0 e 1. Além disso, configure também as seguintes propriedades para otimizar a alocação de recursos e o desempenho geral:

  • spark.dynamicAllocation.cachedExecutorIdleTimeout

  • spark.dynamicAllocation.shuffleTracking.timeout

  • spark.cleaner.periodicGC.interval

Confira a seguir uma visão geral de alto nível sobre como o EMR Sem Servidor obtém acesso aos dados protegidos pelas políticas de segurança do Lake Formation.

Como o Amazon EMR acessa dados protegidos pelas políticas de segurança do Lake Formation.
  1. Um usuário envia uma tarefa do Spark para um aplicativo AWS Lake Formation EMR Serverless habilitado.

  2. O EMR Sem Servidor envia o trabalho para um driver de usuário e executa o trabalho no perfil do usuário. O driver do usuário executa uma versão enxuta do Spark que não tem a capacidade de iniciar tarefas, solicitar executores, acessar o S3 ou o Glue Catalog. Ele cria um plano de trabalho.

  3. O EMR Sem Servidor configura um segundo driver chamado driver do sistema e o executa no perfil do sistema (com uma identidade privilegiada). O EMR Sem Servidor configura um canal TLS criptografado entre os dois drivers para comunicação. O driver do usuário usa o canal para enviar os planos de trabalho ao driver do sistema. O driver do sistema não executa o código enviado pelo usuário. Ele executa o Spark completo e se comunica com o S3 e com o Data Catalog para acesso aos dados. Ele solicita executores e compila o plano de trabalho em uma sequência de estágios de execução.

  4. Em seguida, o EMR Sem Servidor executa os estágios nos executores com o driver do usuário ou o driver do sistema. O código do usuário em qualquer estágio é executado exclusivamente nos executores do perfil do usuário.

  5. Os estágios que lêem dados das tabelas do Catálogo de Dados protegidas por AWS Lake Formation ou que aplicam filtros de segurança são delegados aos executores do sistema.

Como habilitar o Lake Formation no Amazon EMR

Para ativar o Lake Formation, spark.emr-serverless.lakeformation.enabled defina como true spark-defaults subclassificação para o parâmetro de configuração de tempo de execução ao criar um aplicativo EMR Serverless.

aws emr-serverless create-application \ --release-label emr-7.10.0 \ --runtime-configuration '{ "classification": "spark-defaults", "properties": { "spark.emr-serverless.lakeformation.enabled": "true" } }' \ --type "SPARK"

Você também pode habilitar o Lake Formation ao criar uma aplicação no EMR Studio. Escolha Usar Lake Formation para um controle de acesso refinado, disponível em Configurações adicionais.

A criptografia entre trabalhadores é ativada por padrão quando você usa o Lake Formation com o EMR Serverless, portanto, você não precisa habilitar explicitamente a criptografia entre trabalhadores novamente.

Como habilitar o Lake Formation para trabalhos no Spark

Para habilitar o Lake Formation em trabalhos individuais do Spark, defina spark.emr-serverless.lakeformation.enabled como verdadeiro ao usar spark-submit.

--conf spark.emr-serverless.lakeformation.enabled=true

Permissões do IAM do perfil de runtime do trabalho

As permissões do Lake Formation controlam o acesso aos recursos do AWS Glue Data Catalog, aos locais do Amazon S3 e aos dados subjacentes nesses locais. As permissões do IAM controlam o acesso ao Lake Formation, ao AWS Glue APIs e aos recursos. Embora você possa ter a permissão do Lake Formation para acessar uma tabela no Data Catalog (SELECT), a operação falhará se você não tiver a permissão do IAM na operação de API glue:Get*.

Confira a seguir um exemplo de política de como fornecer permissões do IAM para acesso a um script no S3, upload de logs no S3, permissões da API do AWS Glue e permissão para acessar o Lake Formation.

JSON
{ "Version":"2012-10-17", "Statement": [ { "Sid": "ScriptAccess", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::*.amzn-s3-demo-bucket/scripts", "arn:aws:s3:::*.amzn-s3-demo-bucket/*" ] }, { "Sid": "LoggingAccess", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket/logs/*" ] }, { "Sid": "GlueCatalogAccess", "Effect": "Allow", "Action": [ "glue:Get*", "glue:Create*", "glue:Update*" ], "Resource": [ "*" ] }, { "Sid": "LakeFormationAccess", "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": [ "*" ] } ] }

Configuração de permissões do Lake Formation para perfil de runtime do trabalho

Primeiro, registre a localização da tabela do Hive no Lake Formation. Em seguida, crie permissões para o perfil de runtime do trabalho na tabela desejada. Para obter mais detalhes sobre Lake Formation, consulte O que é AWS Lake Formation? no Guia do AWS Lake Formation desenvolvedor.

Depois de configurar as permissões do Lake Formation, envie trabalhos do Spark no Amazon EMR Serverless. Para obter mais informações sobre as tarefas do Spark, consulte os exemplos do Spark.

Envio da execução de um trabalho

Depois de concluir a configuração das concessões do Lake Formation, você pode enviar trabalhos do Spark no EMR Sem Servidor. A seção a seguir mostra exemplos de como configurar e enviar propriedades de execução de tarefas.

Suporte ao formato de tabela aberta

O EMR Serverless é compatível com Apache Hive, Apache Iceberg e, a partir da versão 7.6.0, Delta Lake e Apache Hudi. Para obter informações sobre suporte operacional, consulte as guias a seguir.

Hive
Operações Observações
Operações de leitura Suporte total
Consultas incrementais Não aplicável
Consultas de viagem no tempo Não aplicável a esse formato de tabela
DML INSERT Somente com permissões do IAM
ATUALIZAÇÃO DE DML Não aplicável a esse formato de tabela
DML DELETE Não aplicável a esse formato de tabela
Comandos de DDL Somente com permissões do IAM
Tabelas de metadados Não aplicável a esse formato de tabela
Procedimentos armazenados Não aplicável
Manutenção da mesa e recursos utilitários Não aplicável
Iceberg
Operações Observações
Operações de leitura Suporte total
Consultas incrementais Suporte total
Consultas de viagem no tempo Suporte total
DML INSERT Somente com permissões do IAM
ATUALIZAÇÃO DE DML Somente com permissões do IAM
DML DELETE Somente com permissões do IAM
Comandos de DDL Somente com permissões do IAM
Tabelas de metadados Compatível, mas algumas tabelas estão ocultas. Consulte considerações e limitações para obter mais informações.
Procedimentos armazenados Compatível com as exceções de register_table e migrate. Consulte considerações e limitações para obter mais informações.
Manutenção da mesa e recursos utilitários Não aplicável

Configuração do Spark para o Iceberg: o exemplo a seguir mostra como configurar o Spark com o Iceberg. Para executar trabalhos do Iceberg, forneça as seguintes spark-submit propriedades.

--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=<S3_DATA_LOCATION> --conf spark.sql.catalog.spark_catalog.glue.account-id=<ACCOUNT_ID> --conf spark.sql.catalog.spark_catalog.client.region=<REGION> --conf spark.sql.catalog.spark_catalog.glue.endpoint=https://glue.<REGION>.amazonaws.com
Hudi
Operações Observações
Operações de leitura Suporte total
Consultas incrementais Suporte total
Consultas de viagem no tempo Suporte total
DML INSERT Somente com permissões do IAM
ATUALIZAÇÃO DE DML Somente com permissões do IAM
DML DELETE Somente com permissões do IAM
Comandos de DDL Somente com permissões do IAM
Tabelas de metadados Não compatível
Procedimentos armazenados Não aplicável
Manutenção da mesa e recursos utilitários Não compatível

Os exemplos a seguir configuram o Spark com o Hudi, especificando a localização dos arquivos e outras propriedades necessárias para o uso.

Configuração do Spark para Hudi: esse trecho, quando usado em um notebook, especifica o caminho para o arquivo JAR do pacote Hudi Spark, que ativa a funcionalidade Hudi no Spark. Ele também configura o Spark para usar o AWS Glue Data Catalog como metastore.

%%configure -f { "conf": { "spark.jars": "/usr/lib/hudi/hudi-spark-bundle.jar", "spark.hadoop.hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory", "spark.serializer": "org.apache.spark.serializer.JavaSerializer", "spark.sql.catalog.spark_catalog": "org.apache.spark.sql.hudi.catalog.HoodieCatalog", "spark.sql.extensions": "org.apache.spark.sql.hudi.HoodieSparkSessionExtension" } }

Configuração do Spark para Hudi with AWS Glue: esse trecho, quando usado em um notebook, habilita o Hudi como um formato de lago de dados compatível e garante que as bibliotecas e dependências do Hudi estejam disponíveis.

%%configure { "--conf": "spark.serializer=org.apache.spark.serializer.JavaSerializer --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog --conf spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension", "--datalake-formats": "hudi", "--enable-glue-datacatalog": True, "--enable-lakeformation-fine-grained-access": "true" }
Delta Lake
Operações Observações
Operações de leitura Suporte total
Consultas incrementais Suporte total
Consultas de viagem no tempo Suporte total
DML INSERT Somente com permissões do IAM
ATUALIZAÇÃO DE DML Somente com permissões do IAM
DML DELETE Somente com permissões do IAM
Comandos de DDL Somente com permissões do IAM
Tabelas de metadados Não compatível
Procedimentos armazenados Não aplicável
Manutenção da mesa e recursos utilitários Não compatível

EMR Serverless com Delta Lake: Para usar o Delta Lake com Lake Formation no EMR Serverless, execute o seguinte comando:

spark-sql \ --conf spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension \ --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog \