高维数据聚类 (HDDC) 工具箱包含用于高维数据的高效无监督分类器。 该分类器基于适用于高维数据的高斯模型。 参考:C. Bouveyron、S. Girard 和 C. Schmid,高维数据聚类、计算统计和数据分析,2007 年
2022-09-17 16:48:22 40KB matlab
1
针对高维数据聚类的问题,许多有效的方法已经被提出,级联的子空间聚类算法CSC就是一种有效的解决法案。但是CSC算法定义的聚类损失可能破坏特征空间,从而取得非代表性的无意义特征,进而损害聚类性能。为了解决这一问题,提出了一种结合自编码器保留数据结构的改进算法。具体地说,使用聚类损失作为引导,分散特征空间数据点,同时采用一种欠完备的自动编码器作为重构损失,约束操作和维护数据生成分布的局部结构。将两者结合,共同优化聚类标签的分配,学习适合聚类的局部结构保留特征。使用自适应矩估计(Adam)和小批量随机梯度下降(mini-batch SGD)两种优化方法调整模型参数。在多个数据集上,使用聚类结果准确率(ACC)、标准互信息(NMI)和调整rand指数(ARI)三个评价指标验证了该算法的有效性和优越性。
2021-04-30 17:03:09 1.31MB 高维数据聚类 自编码器 聚类损失
1
fcm高维数据聚类.
2021-04-29 10:51:48 1KB fcm
1
DBSCAN是一种经典的基于密度的聚类技术,在发现任意形状的聚类和处理噪声方面广为人知。 但是,面对高维数据时,密度计算非常耗时,这使得它在许多领域都效率低下,例如多文档摘要,产品推荐等。因此,如何有效地计算高维数据的密度成为了基于DBSCAN的群集技术的一个关键问题。 在本文中,我们提出了一种基于DBSCAN的高维数据聚类的快速算法,称为Dboost。 在我们的算法中,一种名为WAND#的分级检索技术改编被新颖地应用于改进密度计算而没有精度损失,并且我们通过减少WAND#的调用时间来进一步提高了这种加速。 对电线电压数据,Netflix数据集和微博语料库进行了实验。 结果表明,线电压数据和Netflix数据集可实现50倍以上的加速,而微博客数据可望实现100倍以上的加速。
2021-03-02 13:06:06 513KB DBSCAN high dimensionality WAND
1