Criar objetos no AWS Glue Data Catalog - AWS Lake Formation

Criar objetos no AWS Glue Data Catalog

O AWS Lake Formation usa o AWS Glue Data Catalog (Data Catalog) para armazenar metadados sobre data lakes, fontes de dados, transformações e destinos. Metadados são dados sobre os dados subjacentes em seu conjunto de dados. Cada conta da AWS tem um catálogo de dados por região da AWS.

Os metadados no Data Catalog são organizados em uma hierarquia de dados de três níveis que inclui catálogos, bancos de dados e tabelas. Ele organiza dados de várias fontes em contêineres lógicos chamados catálogos. Cada catálogo representa dados de fontes, como data warehouses do Amazon Redshift, bancos de dados do Amazon DynamoDB e fontes de dados de terceiros, como Snowflake, MySQL, e mais de trinta fontes de dados externas, que são integradas por meio de conectores federados. Você também pode criar catálogos no Data Catalog para armazenar dados em buckets de Tabelas do S3 ou no Redshift Managed Storage (RMS).

As tabelas armazenam informações sobre os dados subjacentes, incluindo informações de esquema, informações de partição e localização dos dados. Bancos de dados são coleções de tabelas. O Data Catalog também contém links de recursos, que são links para catálogos, bancos de dados e tabelas compartilhados em contas externas e são usados para acesso entre contas aos dados no data lake.

O Data Catalog é um objeto de catálogo aninhado que contém catálogos, bancos de dados e tabelas. Ele é referido pelo ID da Conta da AWS e é o catálogo padrão em uma conta e em uma Região da AWS. O Data Catalog usa uma hierarquia de três níveis (catalog.database.table) para organizar tabelas.

  • Catálogo: o nível mais alto da hierarquia de metadados de três níveis do Data Catalog. Você pode adicionar vários catálogos no Data Catalog por meio da federação.

  • Banco de dados: o segundo nível da hierarquia de metadados, composto por tabelas e visualizações. Um banco de dados também é chamado de esquema em muitos sistemas de dados, como Amazon Redshift e Trino.

  • Tabela e visualização: o terceiro nível da hierarquia de dados de três níveis do Data Catalog.

Todas as tabelas do Iceberg no Amazon S3 são armazenadas no Data Catalog padrão com ID do catálogo = ID da Conta da AWS. É possível criar catálogos federados no AWS Glue Data Catalog para armazenar definições de tabelas no Amazon Redshift, no armazenamento de Tabelas do Amazon S3 ou em outras fontes de dados de terceiros por meio da federação.