Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Activer la validation de la qualité des données
Vous pouvez activer les contrôles de qualité des données en indiquant à la fois le cluster source et le cluster cible IDs dans votre invite. Le système exécute votre application existante sur le cluster source afin de collecter des métadonnées de base à des fins de comparaison.
Remarque : seules les opérations d'écriture de Spark peuvent être suivies en termes de qualité des données.
Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.
Différences entre les flux de travail liés à
Le flux de travail suit les mêmes étapes que le processus de mise à niveau standard, avec ces étapes supplémentaires dans l'ordre ci-dessus :
-
[Après l'étape 3 : révision et personnalisation du plan]
-
Construire avec la configuration actuelle : créez l'application avec la configuration actuelle pour la soumission du cluster source.
-
Valider sur le cluster EMR source : exécutez l'application d'origine sur la version source de Spark et collectez les métadonnées de sortie pour une comparaison de référence.
-
-
[Après l'étape 7 : Résumé de la mise à niveau] Résumé de la qualité des données : rapport de comparaison de la qualité des données entre les versions et les analyses.
La fonctionnalité d'inadéquation de la qualité des données inclut actuellement :
-
Vérifications du schéma : détecte les modifications de la structure des colonnes : colonnes manquantes ou récemment ajoutées, différences de type de données et modifications de nullabilité.
-
Vérifications des valeurs (colonnes numériques et chaînes uniquement)
-
Compare les valeurs minimale, maximale et moyenne (moyenne uniquement pour les colonnes numériques).
-
Pour les chaînes, min et max sont basés sur l'ordre lexicographique.
-
-
Contrôles statistiques agrégés : compare le nombre total de lignes entre les sorties source et cible.
Validation de la qualité des données : portée et limites
La validation de la qualité des données prend en charge l'EC2 étape EMR à l'aide de la commande spark-submit avec la version Spark >= 3.0 et le cluster EMR ne peut pas avoir > 1. StepConcurrencyLevel La validation de la qualité des données évalue les statistiques au niveau des nœuds récepteurs de données du plan de requête Spark (les métadonnées de la source de données/des transformations ne sont pas capturées) et couvre les opérations d'écriture courantes de Spark, notamment les écritures de fichiers, les insertions de base de données, la création de tables et les différentes sorties de sources de données.