当今时代, 网络舆情传播速度快、影响力大, 而话题检测在网络舆情监管中有着不可替代的作用. 针对传统方法提取文本特征不完整和特征维度过高的问题, 本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型, 将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合, 并引入了时间衰减因子, 同时起到了降维和提高文本特征完整度的作用. 同时, 本文又提出了Single-Pass-SOM组合聚类模型, 该模型解决了SOM模型需要设定初始神经元的问题, 提高了话题聚类的精度. 实验结果表明, 本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.
1
基于隐含狄利克雷分布的Single-Pass新闻聚类算法,冯文杰,熊翱,提出一种基于隐含狄利克雷分布的Single-Pass新闻聚类算法。首先对新闻的线索文档进行了LDA主题聚类,将其映射到新闻集合聚类结果上,�
2021-04-06 15:52:10 319KB LDA;Single-Pass;聚类算法
1