jLDADMM:用于LDA和DMM主题模型的Java包 jLDADMM已发布,它为普通或短文本上的主题建模提供了替代方法。 概率主题模型,例如潜在狄利克雷分配(LDA)[1]和相关模型[2],被广泛用于发现文档集中的潜在主题。 但是,由于数据稀疏性以及此类文本中的上下文有限,将主题模型应用于短文本(例如Tweets)更具挑战性。 一种方法是在训练LDA之前将短文本组合成长的伪文档。 另一种方法是假设每个文档只有一个主题[3]。 jLDADMM提供了LDA主题模型[1]和每个文档一个主题的Dirichlet多项式混合(DMM)模型(即,字母组合的混合)[4]的实现。 LDA和DMM的实现分别使
2023-04-18 11:35:19 133KB nlp topic-modeling lda short-text
1
GSDMM:短文本聚类 该项目为的Dirichlet混合模型实现了Gibbs采样算法,用于短文本文档的聚类。 该算法的一些优点: 它只需要集群数的上限K 通过良好的参数选择,模型可以快速收敛 空间高效且可扩展 该项目是GSDMM的易于阅读的参考实现,除非有需求,否则我不打算维护它。 不过,我积极维护更快锈版本GSDMM的。 电影组过程 在他们的论文中,作者介绍了一个简单的概念模型来解释GSDMM,称为电影组过程。 想象一下一位教授正在领导一个电影课。 在课程开始时,将学生随机分配到K表。 在上课之前,学生会列出自己喜欢的电影。 教授反复朗读班级角色。 每次调用学生姓名时,学生必须选择一个
2021-12-11 20:25:49 8KB python nlp clustering short-text
1
gsdmm-short-text-topic-modeling:GSDMM的短文本主题建模实现
2021-06-27 23:56:10 1.11MB JupyterNotebook
1