大数据挖掘课程作业。提出一种利用聚类和分类等数据技术来挖掘B站中具有高价值的up主。通过挖掘B站up主的视频播放信息,能够获得其点赞量、播放量、留言反馈等各种信息。基于这些信息对up主进行聚类,讲up主分为不同价值的群体。文中主要使用K-Means聚类算法来对B站up主群体进行分类,从而反映出不同up主的价值,并以此为依据来推送有高价值的up主,于平台、于用户而言都是有益的。实验结果显示,该方法展现出很好的分类效果。
2022-01-04 11:05:54 493KB 大数据
1
该函数用于训练用于矢量量化的码本。 首先将数据集拆分为两个集群,然后找到每个集群的均值(质心)。 找到每个向量与这些质心的距离,并且每个向量都与一个集群相关联。 每个簇的向量均值首先替换质心。 如果总距离没有显着提高,则质心每个都分裂为两个。 这种情况一直持续到达到所需的集群数量并且改进不大。
2021-12-31 05:23:23 4KB matlab
1
Matlab代码sqrt 该存储库包含用于产生手稿结果的代码:()。 代码-PCSKM exeSimus.m:运行整个分析并将结果存储在./GenRes/results文件夹中。 该文件包含以下选项: 确定: 0/1开始时不带或带有随机种子。 JMPCKM_OVERLOAD: 0/1使用重载或非重载MPCK-Means。 该库用于MPCK-Means算法。 看 。 CONSTR_PERC: 0/1根据大小使用固定数量的约束或百分比。 日志: (0)无日志文件且无显示,(1)仅日志文件,(2)仅显示,(其他)显示和日志文件。 constraints_type:要使用的约束类型; 0/1激活ML和/或CL,当从所有可用约束中选取-1则随机约束时,则同时选择了1则相等数量的每种类型的牺牲子。 Constraints_number:要使用的固定值或约束的百分比。 citer:每个约束的迭代次数 sstep:要测试的稀疏性参数值,从步骤1.1到sqrt(尺寸),步长为sstep 。 maxIter:算法迭代以达到收敛。 k折:选择k进行k折验证。 CVstatsPer.m:生成有关数据集的统计信
2021-12-28 15:40:03 5.59MB 系统开源
1
关于k-means算法的源程序代码.%%%%%%函数说明%%%%%% %输入: % sample--样本集; % k--聚类数目; %输出: % y--类标; % cnew--聚类中心; % n--迭代次数; function [y cnew n]=k_means(sample,k)
2021-12-28 13:25:55 1KB k-means
1
大规模数据聚类的基于随机梯度下降的K-Means算法
2021-12-16 16:15:52 3.5MB 研究论文
1
目前在教学管理中, 通常采用算术平均线性划分法对学生成绩进行分析评价, 难以准确地反映学生真实的学习情况. 笔者运用K-means 算法对上海市某高级中学某班的一次试卷成绩进行聚类, 并对聚类结果进行了详细分析, 为制定有效的教学及学习策略提供相关依据.
2021-12-15 11:37:42 208KB 工程技术 论文
1
这里面包含了k-means实现代码以及数据集,里面的注释比较简洁,但足以让你能够看懂。本代码是本人亲自试过多次,请放心使用。记得使用时改下代码里面的包名和你数据所放的位置,本代码中是放在D盘中的,你可以根据需要进行修改。。。。
2021-12-12 22:14:12 6KB k-means 代码,数据
1
K-means算法 java实现,可以用来参考参考
2021-12-09 19:09:02 3KB k-means java
1
本文为大家分享了Python机器学习之K-Means聚类的实现代码,供大家参考,具体内容如下 1.K-Means聚类原理 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。其基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 算法大致流程为:(1)随机选取k个点作为种子点(这k个点不一定属于数据集);(2)分别计算每个数据点到k个种子点的距离,离哪个种子点最近,就属于哪类;(3)重新计算k个种子
2021-12-09 16:22:55 75KB k-means k-means算法 ns
1
基于萤火虫优化的加权 K-means 算法
2021-12-09 09:40:17 918KB 研究论文
1