针对当前聚类算法存在的由于初始聚类中心随机选取造成最终聚类结果不佳,运用一种启发式的Canopy算法去优化聚类中心的算法,程序用Java编写,希望对大家有用
2022-01-08 18:48:36 11KB 算法优化
1
协作过滤算法(CF)在推荐系统中难以处理数据的稀疏性和可伸缩性问题。本文提出了基于类别偏好Canopy-K-means的协同过滤算法(CPCKCF),设计了用户项类别偏好比率(UICPR)的定义,并用来计算UICPR矩阵。将Canopy算法作为CPCKCF的前置算法,并将输出作为K-means算法的输入,其结果用于用户数据进行聚类并找到最近的用户以获得预测得分,使用MovieLens数据集进行的实验结果表明,与传统的基于用户的协作过滤算法相比,所提出的CPCKCF算法将计算效率和推荐精度提高了2.81%。
1
针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.
1
对应于前面的MahoutCanopy.jar文件的源代码,可以参考来看;前面的那个是工具,这个是源码
2019-12-21 19:43:12 4KB mahout canopy
1