View a markdown version of this page

Anulación de anidación de esquemas y particionamiento de datos - AWS Glue

Anulación de anidación de esquemas y particionamiento de datos

Cuando se trabaja con orígenes de datos NoSQL, como DynamoDB y aplicaciones SaaS, los datos suelen presentar desafíos únicos para el análisis:

  1. Los registros de la misma tabla pueden tener un esquema diferente

  2. Los registros anidados de la misma tabla se pueden representar de forma diferente

  3. Las estructuras anidadas complejas, como los mapas y las matrices, requieren una transformación para que las consultas sean eficientes

  4. Se necesita una organización de datos óptima para garantizar el rendimiento de las consultas a escala

Las integraciones zero-ETL de AWS Glue abordan estos desafíos a través de dos potentes capacidades:

  • Desanidamiento de esquemas: Aplana automáticamente estructuras de datos anidadas complejas en formatos compatibles con el análisis, con niveles de desanidamiento configurables para equilibrar la conservación de la estructura de datos y optimizarla a fin de simplificar las consultas.

  • Particionamiento de datos: Organiza los datos en particiones lógicas en función de columnas específicas o dimensiones basadas en el tiempo, lo que mejora el rendimiento de las consultas y reduce los costos, ya que permite la eliminación de particiones durante la ejecución de las consultas.

Para poder consultar dichos orígenes de datos de forma eficaz, las integraciones zero-ETL de AWS Glue proporciona esquemas listos para usar de partición y manipulación de esquemas para los datos de origen que se replican en la base de datos de destino de AWS Glue. Puede configurar los ajustes de partición y desanidamiento de esquemas para cada tabla a través de la API CreateIntegrationTableProperty, lo que permite un control preciso de cómo se estructuran y organizan los datos para las cargas de trabajo de análisis.

Comportamiento predeterminado de desanidamiento y partición

  1. Las integraciones zero-ETL de AWS Glue usa de forma predeterminada FULL Unnest cuando no se proporcionan opciones de desanidamiento para la tabla de destino

  2. Las integraciones zero-ETL de AWSGlue utiliza de forma predeterminada la partición de buckets cuando no se proporcionan especificaciones de partición para la tabla de destino