Data Base Technique 数据库技术 Electronic Technology & Software Engineering 电子技术与软件工程 157 【关键词】大数据 数据清洗技术 数据质量 1 数据清洗技术概述 数据清洗技术是为了提高数据质量而剔 除数据中错误记录的一种技术手段,在实际应 用中通常与数据挖掘技术、数据仓库技术、数 据整合技术结合应用。数据清洗技术的基本原 理为:在分析数据源特点的基础上,找出数据 质量问题原因,确定清洗要求,建立起清洗模 型,应用清洗算法、清洗策略和清洗方案对应 到数据识别与处理中,最终清洗出满足质量要 求的数据。具体如 1 所示。数据清洗是数据分 析、数据挖掘的前提,也是数据预处理的关键 环节,可保证数据质量和数据分析的准确性。 在大数据环境下,数据清洗技术已经被广泛应 用于大健康、银行、移动通信、交通等领域, 在一定程度上保证了数据质量,为大数据决策 提供了可靠依据。 2 大数据的数据清洗技术及应用 2.1 基于函数依赖的数据清洗技术 基于函数依赖的数据清洗技术,可解决 数据异常、重复、错误、缺失等问题,能够在 数据预处理环节对
2022-06-22 09:03:39
1.43MB
文档资料