动机
当我在进行数据挖掘课程的第三个家庭作业:将简短的文本聚类时,我在参考资料部分找到了这篇论文,原来是张老师在课堂上推荐的。 因此,我当然要借助在线资源来实现自己提出的GSDMM算法。
注意
该实现仍在进行中。
资料格式
vacabulary.json ,每行带有一个单词及其对应的id。
train_tokens.json ,每行带有一个doc-id及其令牌列表。
train_topics.json ,用于验证。
参考
纸
Yin,J. and Wang,J.,2014年8月。 基于Dirichlet多项式混合模型的短文本聚类方法。 在第20届ACM SIGKDD国际会议上,有关知识发现和数据挖掘的会议(第233-242页)。
Nguyen,DQ,Billingsley,R.,Du,L.,&Johnson,M.(2015年)。 用潜在特征词表示法改进主题模型。 ,3,299-313
2022-10-07 18:45:40
202KB
Python
1