Trazer seus dados para o AWS Glue Data Catalog
É possível criar catálogos federados no AWS Glue Data Catalog (Data Calatog) e unificar dados entre data lakes do Amazon S3 e data warehouses do Amazon Redshift. Você também pode integrar dados de seus bancos de dados operacionais, como o Amazon DynamoDB, e fontes de dados de terceiros, como PostgreSQL, Google BigQuery, MySQL, entre outros. O Catálogo de Dados oferece um repositório centralizado de metadados que facilita o gerenciamento e a descoberta de dados em sistemas diferentes.
O Data Catalog se integra a mais de trinta fontes de dados externas por meio de conectores federados. Com essa integração, é possível consultar dados dessas fontes externas sem precisar criar pipelines de dados para ingerir os dados na AWS primeiro.
Depois de catalogar os dados externos, você pode usar o AWS Lake Formation para gerenciar centralmente as permissões de acesso aos dados no Data Catalog. Os administradores do data lake podem conceder permissões de acesso refinadas a outras entidades principais do IAM (usuários ou perfis) na mesma conta ou em várias contas usando controle de acesso baseado em tag (tags LF) e métodos de recursos nomeados.
Ao usar tags LF, os administradores de dados podem organizar logicamente os recursos com base em atributos, como domínio e nível de sensibilidade, simplificando o gerenciamento de permissões e garantindo controles de acesso consistentes em serviços de analytics e machine learning, incluindo Athena, Amazon EMR, AWS Glue ou Redshift Spectrum.
O Data Catalog fornece os seguintes métodos para gerenciar dados e permissões em conjuntos de dados e metastores externos:
-
Trazer dados nos data warehouses do Amazon Redshift para o AWS Glue Data Catalog: registre um namespace existente do Amazon Redshift ou um cluster no Data Catalog e crie um catálogo federado de vários níveis no Data Catalog.
Você pode acessar seus dados usando qualquer mecanismo de consulta compatível com a especificação OpenAPI do catálogo REST do Apache Iceberg, como Amazon EMR Sem Servidor e Amazon Athena.
-
Federar para o Data Catalog por meio de fontes de dados externas: conecte o Data Catalog a fontes de dados externas usando conexões do AWS Glue e crie catálogos federados para gerenciar centralmente as permissões de acesso em conjuntos de dados usando o Lake Formation. Não é necessária nenhuma migração de metadados para o Data Catalog.
-
Integrar buckets de Tabelas do Amazon S3 com o Data Catalogo (versão prévia): você pode publicar e catalogar Tabelas do Amazon S3 como objetos do Data Catalog e registrar o catálogo como um local de dados do Lake Formation por meio do console do Lake Formation ou usando operações de API AWS Glue.
-
Criar catálogos para gerenciar Tabelas do Amazon Redshift no Data Catalog: você pode não ter um cluster produtor do Amazon Redshift ou uma unidade de compartilhamento de dados do Amazon Redshift disponível atualmente, mas deseja criar e gerenciar Tabelas do Amazon Redshift usando o Data Catalog. É possível começar criando um catálogo gerenciado do AWS Glue usando a operação de API
glue:CreateCatalogou o console do AWS Lake Formation definindo o tipo de catálogo comoManagedeCatalog sourcecomo Redshift. -
Publicar unidades de compartilhamento de dados do Amazon Redshift com o Data Catalog: publique unidades de compartilhamento de dados do Amazon Redshift no Data Catalog e use o Lake Formation para gerenciar centralmente o acesso aos dados das unidades de compartilhamento de dados e restringir o acesso do usuário.
É possível consultar dados usando o Amazon Redshift Spectrum.
-
Conectar o Data Catalog a metastores Hive externos: conecte o Data Catalog a metastores externos para gerenciar permissões de acesso em conjuntos de dados no Amazon S3 usando o Lake Formation. Não é necessária nenhuma migração de metadados para o Data Catalog.
-
Integrar o Lake Formation com o AWS Data Exchange: o Lake Formation aceita o licenciamento de acesso aos seus dados por meio do AWS Data Exchange. Se você quiser licenciar seus dados do Lake Formation, consulte O que é o AWS Data Exchange no Guia do usuário do AWS Data Exchange.
Tópicos
Trazer dados do Amazon Redshift para o AWS Glue Data Catalog
Federar em fontes de dados externas no AWS Glue Data Catalog
Criar um catálogo de Tabelas do Amazon S3 no AWS Glue Data Catalog
Criar um catálogo gerenciado do Amazon Redshift no AWS Glue Data Catalog
Gerenciamento de permissões em conjuntos de dados que usam repositórios de dados externos