Desaninhamento de esquemas e particionamento de dados
Ao trabalhar com fontes de dados NoSQL, como aplicações SaaS e DynamoDB, os dados geralmente apresentam desafios exclusivos do analytics:
-
Os registros na mesma tabela podem ter esquemas diferentes
-
Registros aninhados na mesma tabela podem ser representados de forma diferente
-
Estruturas aninhadas complexas, como mapas e arrays, exigem transformação para consultas eficientes
-
A organização ideal dos dados é necessária para garantir o desempenho das consultas em grande escala
As integrações ETL zero do AWS Glue abordam esses desafios por meio de dois recursos poderosos:
-
Desaninhamento de esquema: automaticamente achata estruturas de dados aninhadas complexas em formatos compatíveis com analytics, com níveis configuráveis de desaninhamento para equilibrar a preservação da estrutura de dados e a otimização para simplificar a consulta.
-
Particionamento de dados: organiza os dados em partições lógicas com base em colunas especificadas ou dimensões baseadas em tempo, melhorando o desempenho da consulta e reduzindo os custos ao permitir a remoção de partições durante a execução da consulta.
Para consultar essas fontes de dados de forma eficaz, o ETL zero do AWS Glue fornece esquemas de particionamento e manipulação de esquemas prontos para uso para os dados de origem que estão sendo replicados no banco de dados de destino do AWS Glue. Você pode configurar as configurações de desaninhamento e particionamento do esquema para cada tabela por meio da API CreateIntegrationTableProperty, permitindo um controle preciso sobre como os dados são estruturados e organizados para workloads de análise.
Comportamento padrão de desaninhamento e particionamento
-
O ETL zero do AWS Glue assume como padrão o Desaninhamento COMPLETO quando nenhuma opção de desaninhamento é fornecida para a tabela de destino
-
O ETL zero do AWS Glue usa como padrão o particionamento de bucket quando nenhuma PartitionSpec é fornecida para a tabela de destino