在scikit-learn中的单元超球面上聚类
演算法
此软件包实现了scikit-learn的Banerjee等人在JMLR 2005 概述的三种算法。
球形K均值(spkmeans)
球形K均值与常规K均值的不同之处在于,它在每个最大化步骤结束时(即归一化质心)将估计的聚类质心投影到单位球体上。
冯·米塞斯·费舍尔分布(movMF)的混合
就像通过均值和方差来参数化高斯分布一样,具有均值方向$\mu$和浓度参数$\kappa$ 。 从vMF分布得出的每个点$x_i$和平均方向$\|\mu\|_2 = 1$生活在单位超球面$\S^{N-1}$ (即$\|x_i\|_2 = 1$ )的表面上$\|\mu\|_2 = 1$ 。 较大的$\kappa$会导致点集中度更高。
如果我们的数据作为一种模式米塞斯费舍尔分布的,我们有一个额外的重量参数$\alpha$在混合物中各分布。 movMF算法通过期望最大化(EM)估计混合参数,使我们能够相应地对数据进行聚类。
软运动MF
估计每个类别的每个示例的实值后验。 从某种意义上说,这使我们可以进行软聚类,因为每个数据点都有聚类的可能性。
1