本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
摄取行为发生变化
新的数据准备体验引入了 SPICE 摄取期间处理数据质量问题的重要变化。这一变化会显著影响数据集中的数据完整性和透明度。
在传统体验中,当遇到数据类型不一致(例如日期格式不正确或类似问题)时,在摄取过程中会跳过包含有问题单元格的整行。这种方法会减少最终数据集中的行数,从而可能掩盖数据质量问题。
新体验采用了更精细的方法来解决数据不一致问题。遇到有问题的单元格时,只有不一致的值才会转换为空值,同时保留整行。这种保留可确保其他列中的相关数据仍然可供分析。
对数据集质量的影响
当源数据包含不一致时,在新体验中创建的数据集通常会比旧版数据集包含更多的行。这种增强的方法有几个好处:
-
通过保留所有行来提高数据的完整性
-
提高识别数据质量问题的透明度
-
更好地了解有问题的值以进行补救
-
将相关数据保存在未受影响的列中
这一变化使分析师能够更有效地识别和解决数据质量问题,而不必在数据集中忽略有问题的行。