通用汽车
Pyspark 中的高斯混合模型实现
GMM 算法将整个数据集建模为高斯分布的有限混合,每个分布由均值向量、协方差矩阵和混合权重进行参数化。 这里每个点属于每个集群的概率与集群统计信息一起计算。
pyspark 中 GMM 的这种分布式实现使用期望最大化算法估计参数,并且只考虑每个分量的对角协方差矩阵。
如何跑步
有两种方法可以运行此代码。
在您的 Python 程序中使用该库。
您可以通过调用函数 GMMModel.trainGMM(data,k,n_iter,ct) 来训练 GMM 模型,其中
data is an RDD(of dense or Sparse Vector),
k is the number of components/clusters,
n_iter is the number of iteration
2021-07-10 12:03:45
11KB
Python
1