上传者: 38554193
|
上传时间: 2021-10-21 17:13:47
|
文件大小: 82.75MB
|
文件类型: -
二分K均值算法matlab代码k均值用于流式传输和分布式大稀疏数据
介绍
在此存储库中,我们提供了核心集算法的Matlab实现,可用于以下方面的评估:
k均值用于流传输和分发大稀疏数据。
Artem
Barger和Dan
Feldman。
2016年SIAM数据挖掘国际会议论文集。
工业和应用数学学会,2016年。
演算法
我们提供了以上论文中使用的三种算法的实现:
统一核心集
不一致的最强(基于灵敏度)
我们的算法(确定性核心集构建)
原料药
Coreset算法提供了两个非常基本的API:
从R^d给定点P的集合:
computeCoreset(P
)-将点P压缩为加权集C的核心集
给定两个核心集C1和C2:
mergedCoreset(C1,
C2)
-将两个核心集合并为一个新的C'。
详细用法
矩阵Matrix.m
矩阵抽象将R^d中n
P点的集合封装在大小为n-by-d
R^d的矩阵中。
PointFunctionSet
-
PointFunctionSet.m
表示加权点集的类,根据将点映射为实际值(权重)的函数来表示。
统一核心集uniformCoreset.m
使用以下A