Habilitar la validación de calidad de los datos - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Habilitar la validación de calidad de los datos

Puede habilitar las comprobaciones de calidad de los datos proporcionando el clúster de origen y el de destino IDs en su solicitud. El sistema ejecuta la aplicación existente en el clúster de origen para recopilar metadatos de referencia con el fin de compararlos.

Nota: Solo se puede rastrear la calidad de los datos de las operaciones de escritura de Spark.

Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

Diferencias en el flujo de trabajo de calidad

El flujo de trabajo sigue los mismos pasos que el proceso de actualización estándar, con estos pasos adicionales en el orden anterior:

  • [Tras el paso 3: revisión y personalización del plan]

    • Compilar con la configuración actual: cree la aplicación con la configuración actual para el envío del clúster de origen.

    • Validar en el clúster EMR de origen: ejecute la aplicación original en la versión de origen de Spark y recopile los metadatos de salida para realizar una comparación de referencia.

  • [Tras el paso 7: Resumen de la actualización] Resumen de la calidad de los datos: informe comparativo de la calidad de los datos entre versiones y análisis.

La capacidad de discordancia de la calidad de los datos incluye actualmente:

  • Comprobaciones de esquemas: detecta los cambios en la estructura de las columnas: columnas faltantes o recién agregadas, diferencias en los tipos de datos y cambios en la nulabilidad.

  • Comprobaciones de valores (solo columnas numéricas y de cadenas)

    • Compara el mínimo, el máximo y la media (la media solo para las columnas numéricas).

    • En el caso de las cadenas, el mínimo y el máximo se basan en el orden lexicográfico.

  • Comprobaciones estadísticas agregadas: comparan los recuentos totales de filas entre las salidas de origen y destino.

Validación de la calidad de los datos: alcance y limitaciones

La validación de la calidad de los datos admite el EC2 paso de EMR mediante el comando spark-submit con la versión >= 3.0 de Spark y el clúster de EMR no puede tener > 1. StepConcurrencyLevel La validación de la calidad de los datos evalúa las estadísticas en los nodos receptores de datos del plan de consultas de Spark (no se capturan los metadatos de la fuente de datos/Transforms) y cubre las operaciones de escritura más comunes de Spark, como la escritura de archivos, las inserciones en bases de datos, la creación de tablas y las salidas de varias fuentes de datos.