架构解嵌套和数据分区
在使用 DynamoDB 和 SaaS 应用程序等 NoSQL 数据源时,数据往往会给分析带来以下独特的挑战:
-
同一个表中的记录可能存在不同的架构
-
同一个表中的嵌套记录可以用不同方式进行表示
-
映射和数组等复杂嵌套结构需要转换才能进行高效查询
-
需要优化数据组织来确保大规模的查询性能
AWS Glue 零 ETL 集成通过以下两项强大的功能来解决这些挑战:
-
架构取消嵌套:自动将复杂的嵌套数据结构扁平化为便于分析的格式,以可配置的嵌套取消级别,在保留数据结构和实施优化以简化查询之间取得平衡。
-
数据分区:根据指定列或基于时间的维度将数据组织成逻辑分区,通过在查询执行期间启用分区修剪,提高查询性能并减小成本。
为有效查询此类数据源,AWS Glue 零 ETL 为在目标 AWS Glue 数据库中复制的源数据,提供开箱即用的架构处理和分区方案。可通过 CreateIntegrationTableProperty API 为每个表配置架构取消嵌套和分区设置,从而对分析工作负载的数据结构和组织方式进行微调控制。
默认的取消嵌套和分区行为
-
没有为目标表提供取消嵌套选项时,AWS Glue 零 ETL 默认为“完全取消嵌套”
-
没有为目标表提供分区规范时,AWS Glue 零 ETL 默认为“存储桶分区”