本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据质量检查
数据质量是数据清理过程中不可或缺但又经常被忽视的环节。下图显示了数据质量检查如何融入数据工程自动化和访问控制生命周期。
下表提供了基于使用案例的不同数据质量解决方案的概述。
使用案例 |
解决方案 |
示例 |
用于添加列级别或表级别质量条件的无代码解决方案 |
检查所有列值是否介于 1 和 12 之间,或者表或列是否为空 |
|
向 AWS Glue 作业或无代码解决方案(预览版)添加自定义代码,以添加列级别或表级别质量条件 |
检查该列 |
|
自定义检查 |
可选择的 ETL 工具,例如 AWS Lambda |
检查 A 列的值是否始终大于 B 列和 C 列的对应值,或者 |
包含指标报告、约束验证和约束建议的复杂解决方案 |
检查列指标 |