As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O que é o AWS Lake Formation?
Bem-vindo ao Guia do desenvolvedor do AWS Lake Formation.
O AWS Lake Formation ajuda você a governar, proteger e compartilhar dados de forma centralizada e global para análise e machine learning. Com o Lake Formation, você pode gerenciar um controle de acesso refinado para seus dados de data lake no Amazon Simple Storage Service (Amazon S3) e seus metadados no AWS Glue Data Catalog.
O Lake Formation fornece seu próprio modelo de permissões que amplia o modelo de permissões do IAM. O modelo de permissões do Lake Formation permite acesso refinado aos dados armazenados em data lakes, bem como fontes de dados externas, como data warehouses do Amazon Redshift, bancos de dados Amazon DynamoDB e fontes de dados de terceiros por meio de um mecanismo simples de concessão ou revogação, muito parecido com um sistema de gerenciamento de banco de dados relacional (RDBMS). As permissões do Lake Formation são aplicadas usando controles granulares nos níveis de coluna, linha e célula em todos os serviços de análise e machine learning da AWS, incluindo o Amazon Athena, o Amazon Quick Suite, o Amazon Redshift Spectrum, o Amazon EMR e o AWS Glue.
Com o modo de acesso híbrido do Lake Formation para o AWS Glue Data Catalog (Data Catalog), você pode proteger e acessar os dados catalogados usando as permissões do Lake Formation e as políticas de permissões do IAM para o Amazon S3 e ações do AWS Glue. Com o modo de acesso híbrido, os administradores de dados podem integrar as permissões do Lake Formation de forma seletiva e incremental, concentrando-se em um caso de uso do data lake por vez.
O Lake Formation também permite que você compartilhe dados interna e externamente em várias Contas da AWS, AWS Organizations ou diretamente com as entidades principais do IAM em outra conta, concedendo acesso refinado a dados subjacentes e metadados do Data Catalog.
Tópicos
Características do Lake Formation
O Lake Formation o ajuda a desfazer silos de dados e combinar diferentes tipos de dados estruturados e não estruturados em um repositório centralizado. Primeiro, identifique os armazenamentos de dados existentes no Amazon S3 ou nos bancos de dados relacionais e NoSQL e mova os dados para o seu data lake. Em seguida, rastreie, catalogue e prepare os dados para análise. Em seguida, forneça aos usuários acesso seguro de autoatendimento aos dados por meio de serviços de análise de sua escolha.
É possível usar o console do Lake Formation para criar catálogos federados de vários níveis no Data Catalog e unificar dados entre data lakes do Amazon S3 e data warehouses do Amazon Redshift. Você também pode integrar dados de seus bancos de dados operacionais, como o Amazon DynamoDB, e fontes de dados de terceiros, como Google BigQuery, MySQL, entre outros. O Catálogo de Dados oferece um repositório centralizado de metadados que facilita o gerenciamento e a descoberta de dados em sistemas diferentes.
Para obter mais informações, consulte Trazendo seus dados para o AWS Glue Data Catalog.
Tópicos
Ingestão e gerenciamento de dados
Importar dados de bancos de dados já existentes na AWS
Depois de especificar onde estão seus bancos de dados existentes e fornecer suas credenciais de acesso, o Lake Formation lê os dados e seus metadados (esquema) para entender o conteúdo da fonte de dados. Em seguida, ele importa os dados para seu novo data lake e registra os metadados em um catálogo central. Com o Lake Formation, você pode importar dados de bancos de dados MySQL, PostgreSQL, SQL Server, MariaDB e Oracle executados no Amazon RDS ou hospedados no Amazon EC2. Tanto o carregamento de dados em massa quanto o incremental são suportados.
Importar dados de outras fontes externas
Você pode usar o Lake Formation para mover dados de bancos de dados on-premises conectando-se ao Java Database Connectivity (JDBC). Identifique suas fontes de destino e forneça credenciais de acesso no console, e o Lake Formation lê e carrega seus dados no data lake. Para importar dados de bancos de dados diferentes dos listados acima, você pode criar trabalhos ETL personalizados com o AWS Glue.
Catalogue e rotule seus dados
Você pode usar os crawlers do AWS Glue para ler seus dados no Amazon S3 e extrair o esquema do banco de dados e da tabela e armazenar esses dados em um Data Catalog pesquisável. Em seguida, use o Lake Formation Controle de acesso baseado em tags do Lake Formation (TBAC) para gerenciar as permissões em bancos de dados, tabelas e colunas. Para obter mais informações sobre como adicionar tabelas ao catálogo de dados, consulte Criação de objetos no AWS Glue Data Catalog.
Gerenciamento de segurança
Defina e gerencie controles de acesso
O Lake Formation fornece um único local para gerenciar os controles de acesso aos dados em seu data lake. Você pode definir políticas de segurança que restrinjam o acesso aos dados nos níveis de banco de dados, tabela, coluna, linha e célula. Essas políticas se aplicam a usuários e funções do IAM e a usuários e grupos durante a federação por meio de um provedor de identidade externo. Você pode usar controles refinados para acessar dados protegidos pelo Lake Formation no Amazon Redshift Spectrum, Athena, AWS Glue ETL e Amazon EMR para Apache Spark. Sempre que você criar identidades do IAM, siga as práticas recomendadas do IAM. Para obter mais informações, consulte Práticas recomendadas de segurança no Guia do usuário do IAM.
Modo de acesso híbrido
O modo de acesso híbrido do Lake Formation oferece a flexibilidade de habilitar seletivamente as permissões do Lake Formation para bancos de dados e tabelas no Data Catalog. Com o modo de acesso híbrido, agora você tem um caminho incremental que permite definir permissões do Lake Formation para um conjunto específico de usuários sem interromper as políticas de permissão de outros usuários ou workload existentes. Para obter mais informações, consulte Modo de acesso híbrido.
Implementar o registro em log de auditoria
O Lake Formation fornece logs de auditoria abrangentes com o CloudTrail para monitorar o acesso e demonstrar conformidade com políticas definidas centralmente. Você pode auditar o histórico de acesso aos dados em serviços de análise e machine learning que leem os dados em seu data lake por meio do Lake Formation. Isso permite que você veja quais usuários ou funções tentaram acessar quais dados, com quais serviços e quando. Você pode acessar os logs de auditoria da mesma forma que acessa qualquer outro log do CloudTrail usando as APIs e o console do CloudTrail. Para mais informações sobre os logs do CloudTrail, consulte Registrar em log chamadas de API do AWS Lake Formation usando o AWS CloudTrail.
Segurança por linha e célula
O Lake Formation fornece filtros de dados que permitem restringir o acesso a uma combinação de colunas e linhas. Use a segurança por linha e célula para proteger dados confidenciais, como Informações de Identificação Pessoal (PII). Para obter mais informações sobre segurança por linha, consulte Filtragem de dados e segurança por célula no Lake Formation.
Controle de acesso com base em tags
Use o controle de acesso por atributo do Lake Formation para gerenciar centenas ou até milhares de permissões de dados criando rótulos personalizados chamados tags LF. Agora você pode definir tags do LF e anexá-las a bancos de dados, tabelas ou colunas. Em seguida, compartilhe o acesso controlado por meio de serviços de análises, de machine learning (ML) e de extração, transformação e carregamento (ETL) para consumo. As tags do LF garantem que a governança de dados possa ser escalada facilmente substituindo as definições de políticas de milhares de recursos por algumas tags lógicas. O Lake Formation fornece uma pesquisa baseada em texto sobre esses metadados, para que seus usuários possam encontrar rapidamente os dados que precisam analisar.
Controle de acesso por atributo
Use o controle de acesso por atributo para conceder acesso aos objetos do Data Catalog. Controle de acesso por atributo (ABAC) é uma estratégia de autorização que define permissões com base em atributos. A AWS chama esses atributos de tags. É possível usar o ABAC para conceder acesso às entidades principais na mesma conta ou em outra conta nos recursos do Data Catalog. Qualquer entidade principal do IAM com chaves e valores correspondentes de tag do IAM ou de tag de sessão recebe acesso ao recurso. É necessário ter permissões para concessão nos recursos para fazer essas concessões.
Acesso entre contas
Os recursos de gerenciamento de permissões do Lake Formation simplificam a proteção e o gerenciamento de data lakes distribuídos em várias contas AWS por meio de uma abordagem centralizada, fornecendo controle de acesso refinado ao catálogo de dados e aos locais do Amazon S3. Para obter mais informações, consulte Compartilhamento de dados entre contas no Lake Formation.
Trazer seus dados para o Catálogo de Dados
O recurso de federação permite criar catálogos federados e configurar permissões em conjuntos de dados armazenados em diferentes fontes de dados, como o Amazon Redshift, sem migrar dados ou metadados para o Amazon S3 ou o AWS Glue Data Catalog. É possível usar os seguintes métodos para trazer dados e gerenciar permissões em conjuntos de dados externos no Lake Formation:
Para acessar mais informações, consulte Trazer seus dados para o AWS Glue Data Catalog.
-
Trazer dados nos data warehouses do Amazon Redshift para o AWS Glue Data Catalog: registre um namespace existente do Amazon Redshift ou um cluster no Data Catalog e crie um catálogo federado de vários níveis no Data Catalog.
Você pode acessar seus dados usando qualquer mecanismo de consulta compatível com a especificação OpenAPI do catálogo REST do Apache Iceberg, como Amazon EMR Sem Servidor e Amazon Athena.
Para obter mais informações, consulte Trazer dados do Amazon Redshift para o AWS Glue Data Catalog.
-
Federar para o Data Catalog por meio de fontes de dados externas: conecte o Data Catalog a fontes de dados externas usando conexões do AWS Glue e crie catálogos federados para gerenciar centralmente as permissões de acesso em conjuntos de dados usando o Lake Formation. Não é necessária nenhuma migração de metadados para o Data Catalog.
Para obter mais informações, consulte Federando em fontes de dados externas no AWS Glue Data Catalog.
-
Integrar buckets de Tabelas do Amazon S3 ao Data Catalog: você pode publicar e catalogar Tabelas do Amazon S3 como objetos do Data Catalog e registrar o catálogo como um local de dados do Lake Formation por meio do console do Lake Formation ou usando APIs do AWS Glue.
Para obter mais informações, consulte Criando um catálogo de tabelas do Amazon S3 no AWS Glue Data Catalog.
-
Criar catálogos para gerenciar Tabelas do Amazon Redshift no Data Catalog: você pode não ter um cluster produtor do Amazon Redshift ou uma unidade de compartilhamento de dados do Amazon Redshift disponível atualmente, mas deseja criar e gerenciar Tabelas do Amazon Redshift usando o Data Catalog. É possível começar criando um catálogo gerenciado do AWS Glue usando a API
glue:CreateCatalogou o console do AWS Lake Formation definindo o tipo de catálogo comoManagedeCatalog sourcecomo Redshift.Para obter mais informações, consulte Criar um catálogo gerenciado do Amazon Redshift no AWS Glue Data Catalog.
-
Integração do Lake Formation com o compartilhamento de dados do Amazon Redshift – Use o Lake Formation para gerenciar centralmente as permissões de acesso por banco de dados, tabela, coluna e linha das unidades de compartilhamento de dados do Amazon Redshift e restringir o acesso dos usuários a objetos em uma unidade de compartilhamento de dados.
-
Conectar o Data Catalog a metastores externos: conecte o AWS Glue Data Catalog a metastores externos para gerenciar permissões de acesso em conjuntos de dados no Amazon S3 usando o Lake Formation. Não é necessária nenhuma migração de metadados para o Data Catalog.
Para obter mais informações, consulte Gerenciamento de permissões em conjuntos de dados que usam repositórios de dados externos.
-
Como integrar o Lake Formation com o AWS Data Exchange: o Lake Formation oferece suporte ao licenciamento de acesso aos seus dados por meio do AWS Data Exchange. Se você estiver interessado em licenciar seus dados do Lake Formation, consulte O que é o AWS Data Exchange no Guia do usuário do AWS Data Exchange.
Introdução ao Lake Formation
Recomendamos que você inicie por estas seções:
-
AWS Lake Formation: como funciona: aprenda sobre a terminologia essencial e como os vários componentes interagem.
-
Introdução ao Lake Formation: obtenha informações sobre os pré-requisitos e conclua tarefas importantes de configuração.
-
AWS Lake Formation tutoriais: siga tutoriais passo a passo para saber como usar o Lake Formation.
-
Segurança em AWS Lake Formation: entenda como você pode ajudar a proteger o acesso a dados no Lake Formation.