通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个数,提高聚类效果;其次,对聚类的距离函数进行改进,采用部分距离度量方式,改进后的算法可以对含有缺失值的记录进行聚类,简化原填充算法步骤。通过对STUDENT ALCOHOL CONSUMPTION数据集的实验,结果证明了该算法能够在提高效率的同时,有效地填充缺失数据。
1
实际应用中大量的不完整的数据集,造成了数据中信息的丢失和分析的不方便,所以对缺失数据的处理已经成为目前分类领域研究的热点。由于EM方法随机选取初始代表簇中心会导致聚类不稳定,本文使用朴素贝叶斯算法的分类结果作为EM算法的初始使用范围,然后按E步M步反复求精,利用得到的最大化值填充缺失数据。实验结果表明,本文的算法加强了聚类的稳定性,具有更好的数据填充效果。
2021-12-23 12:00:20 404KB 软件
1
行业分类-物理装置-基于智能船舶数据库的缺失数据填充方法和装置.zip