k-means聚类算法及matlab代码稀疏的KMeans
KMeans使用预处理和稀疏化实现大数据,Matlab实施。
使用(也称为“
K均值”或“
K均值”),但以特殊方式稀疏数据,以显着(且可调)节省计算时间和内存。
该代码提供kmeans_sparsified
,其用法与Matlab统计工具箱中的kmeans函数非常相似。
有三个好处:
基本实现比“统计信息”工具箱版本快得多。
我们还提供了一些工具箱版本所缺少的现代选项。
例如,我们实现了初始化。
(更新:自2015年以来,Matlab改进了例程和初始化的速度,现在它们的版本与我们的版本相当)。
我们有一个新的变体,称为稀疏KMeans,它可以对数据进行预处理和采样,而该版本可以快数千倍,并且是为无法处理的大数据集设计的
该代码还允许使用大数据选项。
无需传递数据矩阵,而是给它提供.mat文件的位置,并且代码会将数据分成多个块。
当数据为10
TB并且您的计算机只有6
GB的RAM时,这很有用。
数据以较小的块(例如,小于6
GB)加载,然后进行预处理,采样并从RAM中丢弃,然后处理下一个数据块。
整个算法仅遍历数据集。
/注
2022-04-27 13:54:36
860KB
系统开源
1