canopy预处理的kmeans算法 (1)将数据集向量化得到一个list后放入内存,选择两个距离阈值:T1和T2。  (2)从list中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy,则把点P作为一个Canopy),如果点P与某个Canopy距离在T1以内,则将点P加入到这个Canopy;  (3)如果点P曾经与某个Canopy的距离在T2以内,则需要把点P从list中删除,这一步是认为点P此时与这个Canopy已经够近了,因此它不可以再做其它Canopy的中心了;  (4)重复步骤2、3,直到list为空结束
2022-02-04 06:25:38 4.58MB 大数据
1
针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。
2022-01-31 21:44:11 566KB 论文研究
1
针对当前聚类算法存在的由于初始聚类中心随机选取造成最终聚类结果不佳,运用一种启发式的Canopy算法去优化聚类中心的算法,程序用Java编写,希望对大家有用
2022-01-08 18:48:36 11KB 算法优化
1
协作过滤算法(CF)在推荐系统中难以处理数据的稀疏性和可伸缩性问题。本文提出了基于类别偏好Canopy-K-means的协同过滤算法(CPCKCF),设计了用户项类别偏好比率(UICPR)的定义,并用来计算UICPR矩阵。将Canopy算法作为CPCKCF的前置算法,并将输出作为K-means算法的输入,其结果用于用户数据进行聚类并找到最近的用户以获得预测得分,使用MovieLens数据集进行的实验结果表明,与传统的基于用户的协作过滤算法相比,所提出的CPCKCF算法将计算效率和推荐精度提高了2.81%。
1
基于KMeans聚类的协同过滤推荐算法可运用于基于用户和基于项目的协同过滤推荐算法中,作为降低数据稀疏度和提高推荐准确率的方法之一,一个协同过滤推荐过程可实现多次KMeans聚类。 一、基于KMeans聚类的协同过滤推荐算法推荐原理 KMeans聚类算法是聚类算法中最基础最常用、最重要的聚类算法。KMeans聚类算法首先需要确定N个初始中心点,初始中心点的选择对聚类结果影响很大,常用的初始中心点的选择有随机选择、自定义、采用Canopy聚类算法结果作为初始中心点,然后是重复遍历点与簇中心的距离,并不断修正簇中心点,可设置遍历次数和点与簇中心的最小距离影响聚类结果。 聚类的数据可以是一维数组、二
2021-08-12 14:35:49 491KB jav java nop
1
Kong Kong for Canopy 安装说明 克隆这个存储库: $ git clone cip-kong 2. Start Cassandra: ```sh $ sudo docker run -p 9042:9042 -d --name cassandra mashape/cassandra 开始金刚: $ sudo docker run -d -v /cip-kong -p 8000:8000 -p 8001:8001 --名字Kong--link 卡桑德拉:卡桑德拉马形状/Kong ### Testing 1. Add your "/info" API for canopycloud/microservice-nodejs: ```sh $ curl -i -X POST \ --url http://localhost:8001/apis/ \ --da
2021-07-18 17:02:57 4KB
1
仿造mahout 的canopy算法编写的canopy算法,只是把其中的输入数据文件的格式改为了text类型,且加入了log信息,方便用户测试算法;
2021-06-06 13:57:56 8KB canopy mahout
1
针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.
1
对应于前面的MahoutCanopy.jar文件的源代码,可以参考来看;前面的那个是工具,这个是源码
2019-12-21 19:43:12 4KB mahout canopy
1