Bancos de dados e tabelas do AWS Glue Crawlers e classificadores do AWS Glue Conexões do AWS Glue Registro de esquemas do AWS Glue

AWS Glue Data Catalog

O AWS Glue Data Catalog é um repositório centralizado de metadados para todos os seus ativos de dados em várias fontes de dados. Ele fornece uma interface unificada para armazenar e consultar informações sobre formatos, esquemas e fontes de dados. Quando uma tarefa de AWS Glue ETL é executada, ela usa esse catálogo para entender as informações sobre os dados e garantir que eles sejam transformados corretamente.

O AWS Glue Data Catalog é composto dos seguintes componentes:

Bancos de dados e tabelas
Crawlers e classificadores
Conexões
Registro de esquemas

Bancos de dados e tabelas do AWS Glue

O AWS Glue Data Catalog é organizado em bancos de dados e tabelas para fornecer uma estrutura lógica para armazenar e gerenciar metadados. Essa estrutura oferece suporte ao controle preciso do acesso aos dados em nível de tabela ou banco de dados usando Políticas (IAM) do AWS Identity and Access Management.

Um banco de dados do AWS Glue pode conter várias tabelas, e cada tabela deve estar associada a um único banco de dados. Essas tabelas contêm referências aos dados reais, que podem ser armazenados em qualquer uma das várias fontes de dados suportadas pelo AWS Glue. As tabelas do AWS Glue também armazenam metadados essenciais, como nomes de colunas, tipos de dados e chaves de partição.

Há vários métodos diferentes para criar uma tabela no AWS Glue:

Crawler do AWS Glue
Trabalho de ETL do AWS Glue
Console do AWS Glue
Operação do CreateTable na API AWS Glue
Modelo do AWS CloudFormation
AWS Cloud Development Kit (AWS CDK)
Uma metastore migrada do Apache Hive

Crawlers e classificadores do AWS Glue

Um crawler do AWS Glue automaticamente descobre e extrai os metadados de um armazenamento de dados e, em seguida, atualiza o AWS Glue Data Catalog adequadamente. O crawler se conecta ao armazenamento de dados para inferir o esquema dos dados. Em seguida, ele cria ou atualiza tabelas no Catálogo de Dados com as informações do esquema que descobriu. Um crawler pode rastrear armazenamentos de dados baseados em arquivos e baseados em tabelas. Para saber mais sobre armazenamentos de dados compatíveis, consulte Com quais armazenamentos de dados posso fazer crawling?

O crawler usa classificadores para reconhecer com precisão o formato dos dados e determinar como eles devem ser processados. Por padrão, o crawler usa um conjunto de classificadores integrados comuns fornecidos pelo AWS Glue, mas você também pode gravar classificadores personalizados para lidar com casos de uso específicos.

Conexões do AWS Glue

Você pode usar conexões do AWS Glue para definir parâmetros de conexão que permitem AWS Glue a conexão com várias fontes de dados. A adição de conexões centraliza e simplifica a configuração necessária para se conectar a essas fontes.

Ao definir uma conexão, você especifica o tipo de conexão, o endpoint da conexão e todas as credenciais necessárias. Depois que uma conexão é definida, ela pode ser reutilizada por vários trabalhos e crawlers do AWS Glue. O uso de conexões com o AWS Glue reduz a necessidade de inserir repetidamente as mesmas informações de conexão, como credenciais de login ou IDs de nuvem privada virtual (VPC).

Registro de esquemas do AWS Glue

O Registro de esquemas do AWS Glue fornece um local centralizado para gerenciar e aplicar esquemas de fluxo de dados. Ele permite que sistemas diferentes, como produtores e consumidores de dados, compartilhem um esquema para serialização e desserialização. Compartilhar um esquema ajuda esses sistemas a se comunicarem de forma eficaz e evitarem erros durante a transformação.

O Registro do Esquema garante que os consumidores de dados posteriores possam lidar com as alterações feitas a montante, pois estão cientes do esquema esperado. Ele suporta a evolução do esquema, para que um esquema possa mudar com o tempo, mantendo a compatibilidade com as versões anteriores do esquema.

O Schema Registry se integra a vários serviços do AWS, incluindo Amazon Kinesis Data Streams, Firehose e Amazon Managed Streaming para Apache Kafka. Para exemplos de casos de uso e integrações, consulte Integração com o AWS Glue Schema Registry.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

AWS Glue ETL

Atributos e conceitos