数据质量检查 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据质量检查

数据质量是数据清理过程中不可或缺但又经常被忽视的环节。下图显示了数据质量检查如何融入数据工程自动化和访问控制生命周期。

数据质量示意图

下表提供了基于使用案例的不同数据质量解决方案的概述。

使用案例

解决方案

示例

用于添加列级别或表级别质量条件的无代码解决方案

AWS Glue DataBrew

检查所有列值是否介于 1 和 12 之间,或者表或列是否为空

向 AWS Glue 作业或无代码解决方案(预览版)添加自定义代码,以添加列级别或表级别质量条件

AWS Glue 数据质量自动监测功能

检查该列first_name是否不为空,或者该列是否仅phone_number包含数字或 “+” 运算符 and/or 统计函数,例如平均值或求和

自定义检查

可选择的 ETL 工具,例如 AWS LambdaAWS GlueAmazon EMR

检查 A 列的值是否始终大于 B 列和 C 列的对应值,或者 continent 列的值是否始终在地理上正确且源自 city

包含指标报告、约束验证和约束建议的复杂解决方案

Deequ

检查列指标 review_id 的完整性的 CompletenessConstraint 是否等于 1