GSDMM:短文本聚类
该项目为的Dirichlet混合模型实现了Gibbs采样算法,用于短文本文档的聚类。 该算法的一些优点:
它只需要集群数的上限K
通过良好的参数选择,模型可以快速收敛
空间高效且可扩展
该项目是GSDMM的易于阅读的参考实现,除非有需求,否则我不打算维护它。 不过,我积极维护更快锈版本GSDMM的。
电影组过程
在他们的论文中,作者介绍了一个简单的概念模型来解释GSDMM,称为电影组过程。
想象一下一位教授正在领导一个电影课。 在课程开始时,将学生随机分配到K表。 在上课之前,学生会列出自己喜欢的电影。 教授反复朗读班级角色。 每次调用学生姓名时,学生必须选择一个
1