Trazer seus dados para o AWS Glue Data Catalog - AWS Lake Formation

Trazer seus dados para o AWS Glue Data Catalog

É possível criar catálogos federados no AWS Glue Data Catalog (Data Calatog) e unificar dados entre data lakes do Amazon S3 e data warehouses do Amazon Redshift. Você também pode integrar dados de seus bancos de dados operacionais, como o Amazon DynamoDB, e fontes de dados de terceiros, como PostgreSQL, Google BigQuery, MySQL, entre outros. O Catálogo de Dados oferece um repositório centralizado de metadados que facilita o gerenciamento e a descoberta de dados em sistemas diferentes.

O Data Catalog se integra a mais de trinta fontes de dados externas por meio de conectores federados. Com essa integração, é possível consultar dados dessas fontes externas sem precisar criar pipelines de dados para ingerir os dados na AWS primeiro.

Depois de catalogar os dados externos, você pode usar o AWS Lake Formation para gerenciar centralmente as permissões de acesso aos dados no Data Catalog. Os administradores do data lake podem conceder permissões de acesso refinadas a outras entidades principais do IAM (usuários ou perfis) na mesma conta ou em várias contas usando controle de acesso baseado em tag (tags LF) e métodos de recursos nomeados.

Ao usar tags LF, os administradores de dados podem organizar logicamente os recursos com base em atributos, como domínio e nível de sensibilidade, simplificando o gerenciamento de permissões e garantindo controles de acesso consistentes em serviços de analytics e machine learning, incluindo Athena, Amazon EMR, AWS Glue ou Redshift Spectrum.

O Data Catalog fornece os seguintes métodos para gerenciar dados e permissões em conjuntos de dados e metastores externos:

  • Trazer dados nos data warehouses do Amazon Redshift para o AWS Glue Data Catalog: registre um namespace existente do Amazon Redshift ou um cluster no Data Catalog e crie um catálogo federado de vários níveis no Data Catalog.

    Você pode acessar seus dados usando qualquer mecanismo de consulta compatível com a especificação OpenAPI do catálogo REST do Apache Iceberg, como Amazon EMR Sem Servidor e Amazon Athena.

  • Federar para o Data Catalog por meio de fontes de dados externas: conecte o Data Catalog a fontes de dados externas usando conexões do AWS Glue e crie catálogos federados para gerenciar centralmente as permissões de acesso em conjuntos de dados usando o Lake Formation. Não é necessária nenhuma migração de metadados para o Data Catalog.

  • Integrar buckets de Tabelas do Amazon S3 com o Data Catalogo (versão prévia): você pode publicar e catalogar Tabelas do Amazon S3 como objetos do Data Catalog e registrar o catálogo como um local de dados do Lake Formation por meio do console do Lake Formation ou usando operações de API AWS Glue.

  • Criar catálogos para gerenciar Tabelas do Amazon Redshift no Data Catalog: você pode não ter um cluster produtor do Amazon Redshift ou uma unidade de compartilhamento de dados do Amazon Redshift disponível atualmente, mas deseja criar e gerenciar Tabelas do Amazon Redshift usando o Data Catalog. É possível começar criando um catálogo gerenciado do AWS Glue usando a operação de API glue:CreateCatalog ou o console do AWS Lake Formation definindo o tipo de catálogo como Managed e Catalog source como Redshift.

  • Publicar unidades de compartilhamento de dados do Amazon Redshift com o Data Catalog: publique unidades de compartilhamento de dados do Amazon Redshift no Data Catalog e use o Lake Formation para gerenciar centralmente o acesso aos dados das unidades de compartilhamento de dados e restringir o acesso do usuário.

    É possível consultar dados usando o Amazon Redshift Spectrum.

  • Conectar o Data Catalog a metastores Hive externos: conecte o Data Catalog a metastores externos para gerenciar permissões de acesso em conjuntos de dados no Amazon S3 usando o Lake Formation. Não é necessária nenhuma migração de metadados para o Data Catalog.

  • Integrar o Lake Formation com o AWS Data Exchange: o Lake Formation aceita o licenciamento de acesso aos seus dados por meio do AWS Data Exchange. Se você quiser licenciar seus dados do Lake Formation, consulte O que é o AWS Data Exchange no Guia do usuário do AWS Data Exchange.