话题检测和追踪过程中,话题漂移的产生往往降低话题检测和追踪的准确率。为了克服这个问题,通过分析新闻报道中种子事件与后续的新颖事件之间的演化关系,强调命名实体词的贡献度,并及时调整话题的重心向量,建立了一种动态的话题检测和追踪模型。实验证明,该模型有效地降低了话题漂移现象在话题检测与话题追踪中的影响。
2023-03-31 16:31:53 240KB 种子事件
1
搜狗话题检测的数据集,大约1000条数据的链接,需要根据链接自己去爬取数据;每个链接后面附有相应的话题,话题比较细致,适合用来做实验或毕业设计;
2022-05-22 16:51:01 56KB 数据集
1
基于LDA模型的微博话题检测,汪进祥,刘念,随着微博用户的不断增长,国外的Twitter和国内的新浪微博已经成为媒体和个人发布信息的重要平台.对于微博这种特殊的文本,通常小于140��
2022-01-03 13:56:22 376KB 主题模型
1
当今时代, 网络舆情传播速度快、影响力大, 而话题检测在网络舆情监管中有着不可替代的作用. 针对传统方法提取文本特征不完整和特征维度过高的问题, 本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型, 将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合, 并引入了时间衰减因子, 同时起到了降维和提高文本特征完整度的作用. 同时, 本文又提出了Single-Pass-SOM组合聚类模型, 该模型解决了SOM模型需要设定初始神经元的问题, 提高了话题聚类的精度. 实验结果表明, 本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.
1
针对微博信息噪音大,新颖度难以判断的问题,在动量模型的基础上进行优化,提出基于逐步分析的微博突发话题检测方法。动量时间序列分别对信号频域分析理论和股票趋势分析理论进行建模,分析特征的频域特性来识别重复伪随机特征,分析特征的新颖程度来识别间歇性伪突发特征,合并过滤后微博数据实验表明,该方法有效提高了突发话题检测的准确率和F值。
2021-06-03 23:06:48 327KB 突发话题; 微博; 突发特征; 时序分析
1
针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Model,VSM),并结合主题模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潜在语义,把两个模型得到的特征进行特征融合,并应用K-means聚类算法进行话题的发现。实验结果表明,与传统的话题检测方法相比,该模型的调整兰德系数(Adjusted Rand index,ARI)为0.80,比传统的话题检测方法提高了3%~6%。
2021-05-14 09:30:34 490KB 话题检测
1