As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS Glue Data Catalog
O AWS Glue Data Catalog é um repositório centralizado de metadados para todos os seus ativos de dados em várias fontes de dados. Ele fornece uma interface unificada para armazenar e consultar informações sobre formatos, esquemas e fontes de dados. Quando uma tarefa de AWS Glue ETL é executada, ela usa esse catálogo para entender as informações sobre os dados e garantir que eles sejam transformados corretamente.
O AWS Glue Data Catalog é composto dos seguintes componentes:
-
Bancos de dados e tabelas
-
Crawlers e classificadores
-
Conexões
-
Registro de esquemas
Bancos de dados e tabelas do AWS Glue
O AWS Glue Data Catalog é organizado em bancos de dados e tabelas para fornecer uma estrutura lógica para armazenar e gerenciar metadados. Essa estrutura oferece suporte ao controle preciso do acesso aos dados em nível de tabela ou banco de dados usando Políticas (IAM) do AWS Identity and Access Management.
Um banco de dados do AWS Glue pode conter várias tabelas, e cada tabela deve estar associada a um único banco de dados. Essas tabelas contêm referências aos dados reais, que podem ser armazenados em qualquer uma das várias fontes de dados suportadas pelo AWS Glue. As tabelas do AWS Glue também armazenam metadados essenciais, como nomes de colunas, tipos de dados e chaves de partição.
Há vários métodos diferentes para criar uma tabela no AWS Glue:
-
Crawler do AWS Glue
-
Trabalho de ETL do AWS Glue
-
Console do AWS Glue
-
Operação do
CreateTablena API AWS Glue -
Modelo do AWS CloudFormation
-
AWS Cloud Development Kit (AWS CDK)
-
Uma metastore migrada do Apache Hive
Crawlers e classificadores do AWS Glue
Um crawler do AWS Glue automaticamente descobre e extrai os metadados de um armazenamento de dados e, em seguida, atualiza o AWS Glue Data Catalog adequadamente. O crawler se conecta ao armazenamento de dados para inferir o esquema dos dados. Em seguida, ele cria ou atualiza tabelas no Catálogo de Dados com as informações do esquema que descobriu. Um crawler pode rastrear armazenamentos de dados baseados em arquivos e baseados em tabelas. Para saber mais sobre armazenamentos de dados compatíveis, consulte Com quais armazenamentos de dados posso fazer crawling?
O crawler usa classificadores para reconhecer com precisão o formato dos dados e determinar como eles devem ser processados. Por padrão, o crawler usa um conjunto de classificadores integrados comuns fornecidos pelo AWS Glue, mas você também pode gravar classificadores personalizados para lidar com casos de uso específicos.
Conexões do AWS Glue
Você pode usar conexões do AWS Glue para definir parâmetros de conexão que permitem AWS Glue a conexão com várias fontes de dados. A adição de conexões centraliza e simplifica a configuração necessária para se conectar a essas fontes.
Ao definir uma conexão, você especifica o tipo de conexão, o endpoint da conexão e todas as credenciais necessárias. Depois que uma conexão é definida, ela pode ser reutilizada por vários trabalhos e crawlers do AWS Glue. O uso de conexões com o AWS Glue reduz a necessidade de inserir repetidamente as mesmas informações de conexão, como credenciais de login ou IDs de nuvem privada virtual (VPC).
Registro de esquemas do AWS Glue
O Registro de esquemas do AWS Glue fornece um local centralizado para gerenciar e aplicar esquemas de fluxo de dados. Ele permite que sistemas diferentes, como produtores e consumidores de dados, compartilhem um esquema para serialização e desserialização. Compartilhar um esquema ajuda esses sistemas a se comunicarem de forma eficaz e evitarem erros durante a transformação.
O Registro do Esquema garante que os consumidores de dados posteriores possam lidar com as alterações feitas a montante, pois estão cientes do esquema esperado. Ele suporta a evolução do esquema, para que um esquema possa mudar com o tempo, mantendo a compatibilidade com as versões anteriores do esquema.
O Schema Registry se integra a vários serviços do AWS, incluindo Amazon Kinesis Data Streams, Firehose e Amazon Managed Streaming para Apache Kafka. Para exemplos de casos de uso e integrações, consulte Integração com o AWS Glue Schema Registry.