Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Changements du comportement d'ingestion
La nouvelle expérience de préparation des données introduit un changement important dans la manière dont les problèmes de qualité des données sont traités lors de l'ingestion de SPICE. Ce changement a un impact significatif sur l'exhaustivité des données et la transparence de vos ensembles de données.
Dans l'ancienne expérience, en cas d'incohérence entre les types de données (tels que des formats de date incorrects ou des problèmes similaires), la ligne entière contenant des cellules problématiques est ignorée lors de l'ingestion. Cette approche réduit le nombre de lignes dans le jeu de données final, ce qui peut masquer les problèmes de qualité des données.
La nouvelle expérience adopte une approche plus précise des incohérences dans les données. Lorsque vous rencontrez des cellules problématiques, seules les valeurs incohérentes sont converties en valeurs nulles tout en conservant la ligne entière. Cette conservation garantit que les données associées dans d'autres colonnes restent accessibles pour analyse.
Impact sur la qualité des jeux de données
Les ensembles de données créés dans la nouvelle expérience contiennent généralement plus de lignes que leurs homologues existants lorsque les données sources contiennent des incohérences. Cette approche améliorée présente plusieurs avantages :
-
Amélioration de l'exhaustivité des données en conservant toutes les lignes
-
Plus grande transparence dans l'identification des problèmes de qualité des données
-
Meilleure visibilité des valeurs problématiques pour la correction
-
Conservation des données associées dans des colonnes non affectées
Cette modification permet aux analystes d'identifier et de résoudre les problèmes de qualité des données de manière plus efficace, au lieu d'omettre silencieusement les lignes problématiques de l'ensemble de données.