As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Como usar AWS Lake Formation com a AWS Glue
Engenheiros de dados e profissionais de DevOps usam o AWS Glue com extração, transformação e carregamento (ETL) e o Apache Spark para realizar transformações em seus conjuntos de dados no Amazon S3 e carregar os dados transformados em data lakes e data warehouses para análise, machine learning e desenvolvimento de aplicativos. Com equipes diferentes acessando o mesmo conjunto de dados no Amazon S3, é imperativo conceder e restringir permissões com base em seus perfis.
O AWS Lake Formation é construído com base no AWS Glue, e os serviços interagem das seguintes maneiras:
-
Lake Formation e AWS Glue compartilham o mesmo catálogo de dados.
-
Os seguintes atributos do console Lake Formation invocam o console AWS Glue:
-
Trabalhos — Para obter mais informações, consulte Como adicionar trabalhos no Guia do desenvolvedor do AWS Glue.
-
Crawlers – Para obter mais informações, consulte Catalogação de tabelas com um Crawler Guia do desenvolvedor do AWS Glue.
-
-
Os fluxos de trabalho gerados quando você usa um esquema do Lake Formation são fluxos de trabalho AWS Glue. Você pode visualizar e gerenciar esses fluxos de trabalho no console do Lake Formation e no console AWS Glue.
-
As transformações de machine learning são fornecidas com o Lake Formation e são baseadas em operações de API do AWS Glue. Você cria e gerencia transformações de machine learning no console AWS Glue. Para obter mais informações, consulte Transformações de machine learning no Guia do desenvolvedor do AWS Glue.
Você pode usar o controle de acesso refinado do Lake Formation para gerenciar seus recursos existentes do catálogo de dados e os locais de dados do Amazon S3.
nota
O AWS Glue 5.0 ou posterior comporta controles de acesso refinados em tabelas do Iceberg e do Hive com suporte do S3. Esse recurso permite configurar controles de acesso em nível de tabela, linha, coluna e célula para consultas de leitura nos trabalhos do AWS Glue para Apache Spark.
Suporte para tipos de tabelas transacionais
A aplicação das permissões do Lake Formation permite que você proteja seus dados transacionais em seus data lakes baseados no Amazon S3. A tabela abaixo lista os formatos de tabela transacional aceitos no AWS Glue e as permissões do Lake Formation. O Lake Formation impõe estas permissões para operações do AWS Glue.
| Formato da tabela | Descrição e operações permitidas | Permissões do Lake Formation possíveis em AWS Glue |
|---|---|---|
|
Apache Hudi |
Um formato de tabela aberta usado para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados. Para obter exemplos, consulte Usar a estrutura do Hudi no AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Hudi. Para obter mais informações, consulte Limitações. |
|
Apache Iceberg |
Um formato de tabela aberta que gerencia grandes coleções de arquivos como tabelas. Para obter exemplos, consulte Usar a estrutura Iceberg no AWS Glue. |
O AWS Glue versão 5.0 e posterior permite configurar controles de acesso em nível de tabela, linha, coluna e célula para consultas de leitura nos trabalhos do AWS Glue para Apache Spark para tabelas do Iceberg. Para obter mais informações, consulte Limitações. |
|
Linux Foundation Delta Lake |
O Delta Lake é um projeto de código aberto que ajuda a implementar arquiteturas modernas de data lake, geralmente construídas no Amazon S3 ou no Sistema de Arquivos Distribuído do Hadoop (HDFS). Para obter exemplos, consulte Usar a estrutura Delta Lake no AWS Glue. |
As permissões em nível de tabela estão disponíveis para tabelas do Delta Lake. Para obter mais informações, consulte Limitações. |
Recursos adicionais
Publicações em blogs e repositórios
-
Gravação em tabelas do Apache Hudi usando um conector personalizado AWS Glue
-
Repositório da AWS do modelo Cloudformation e exemplo de código pyspark
para analisar dados de streaming usando o AWS Glue, Apache Hudi e Amazon S3.