Verificaciones de la calidad de los datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Verificaciones de la calidad de los datos

La calidad de los datos es una parte integral del proceso de limpieza de datos, que a menudo se omite. En el diagrama siguiente se muestra cómo se integran los controles de calidad de los datos en el ciclo de vida de la ingeniería de datos, la automatización y el control de acceso.

Diagrama de la calidad de los datos

En la tabla siguiente se proporciona información general de las soluciones diferentes de calidad de datos según el caso de uso.

Caso de uso

Solución

Ejemplo

Solución sin código para agregar condiciones de calidad a nivel de columna o tabla

Pegamento AWS DataBrew

Verifica si todos los valores de las columnas se encuentran entre 1 y 12, o si una tabla o columna está vacía

Código personalizado agregado a un trabajo de AWS Glue o a una solución sin código (en versión preliminar) para agregar condiciones de calidad a nivel de columna o tabla

Calidad de datos de AWS Glue

Comprueba si la columna no first_name es nula o si phone_number contiene solo números o funciones and/or estadísticas con el operador «+», como el promedio o la suma

Verificaciones personalizadas

ETL de su elección, como AWS Lambda, AWS Glue o Amazon EMR

Verifica si el valor de la columna A es siempre mayor que el valor correspondiente de las columnas B y C, o si el valor de la columna continent siempre es geográficamente correcto y se deriva de la columna city

Solución sofisticada con un informe de métricas, validación de restricciones y sugerencias de restricciones

Deequ

Verifica si CompletenessConstraint de integridad de la métrica de la columna review_id es igual a 1