Anulación de anidación de esquemas y particionamiento de datos
Cuando se trabaja con orígenes de datos NoSQL, como DynamoDB y aplicaciones SaaS, los datos suelen presentar desafíos únicos para el análisis:
-
Los registros de la misma tabla pueden tener un esquema diferente
-
Los registros anidados de la misma tabla se pueden representar de forma diferente
-
Las estructuras anidadas complejas, como los mapas y las matrices, requieren una transformación para que las consultas sean eficientes
-
Se necesita una organización de datos óptima para garantizar el rendimiento de las consultas a escala
Las integraciones zero-ETL de AWS Glue abordan estos desafíos a través de dos potentes capacidades:
-
Desanidamiento de esquemas: Aplana automáticamente estructuras de datos anidadas complejas en formatos compatibles con el análisis, con niveles de desanidamiento configurables para equilibrar la conservación de la estructura de datos y optimizarla a fin de simplificar las consultas.
-
Particionamiento de datos: Organiza los datos en particiones lógicas en función de columnas específicas o dimensiones basadas en el tiempo, lo que mejora el rendimiento de las consultas y reduce los costos, ya que permite la eliminación de particiones durante la ejecución de las consultas.
Para poder consultar dichos orígenes de datos de forma eficaz, las integraciones zero-ETL de AWS Glue proporciona esquemas listos para usar de partición y manipulación de esquemas para los datos de origen que se replican en la base de datos de destino de AWS Glue. Puede configurar los ajustes de partición y desanidamiento de esquemas para cada tabla a través de la API CreateIntegrationTableProperty, lo que permite un control preciso de cómo se estructuran y organizan los datos para las cargas de trabajo de análisis.
Comportamiento predeterminado de desanidamiento y partición
-
Las integraciones zero-ETL de AWS Glue usa de forma predeterminada FULL Unnest cuando no se proporcionan opciones de desanidamiento para la tabla de destino
-
Las integraciones zero-ETL de AWSGlue utiliza de forma predeterminada la partición de buckets cuando no se proporcionan especificaciones de partición para la tabla de destino