针对微博信息噪音大,新颖度难以判断的问题,在动量模型的基础上进行优化,提出基于逐步分析的微博突发话题检测方法。动量时间序列分别对信号频域分析理论和股票趋势分析理论进行建模,分析特征的频域特性来识别重复伪随机特征,分析特征的新颖程度来识别间歇性伪突发特征,合并过滤后微博数据实验表明,该方法有效提高了突发话题检测的准确率和F值。
2021-06-03 23:06:48 327KB 突发话题; 微博; 突发特征; 时序分析
1
Android话题##匹配和点击
2021-06-03 14:31:10 23.83MB Android
1
5、让聊天话题如泉涌的八个简单方法.txt
2021-05-29 14:02:11 2KB 情感分析
1
2
2021-05-29 14:02:10 17KB 1
1
1
2021-05-29 14:02:10 14KB c++11
1
微博热点话题发现系统的设计与实现 论文下载s
2021-05-18 10:04:22 8.68MB 微博 热点发现
1
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法。采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验。实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means。此外,CW-WGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题
2021-05-14 11:45:33 1.99MB 短文本 话题发现 词共现 社团发现
1
随着微博用户的增多,微博平台的信息更新频繁。针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带来的计算量繁重问题。采用改进的SOM对话题进行聚类,该算法改善了传统文本聚类的不足,进而能有效地发现话题。实验表明该算法较传统文本聚类算法的综合指标F值有明显提高。
1
针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Model,VSM),并结合主题模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潜在语义,把两个模型得到的特征进行特征融合,并应用K-means聚类算法进行话题的发现。实验结果表明,与传统的话题检测方法相比,该模型的调整兰德系数(Adjusted Rand index,ARI)为0.80,比传统的话题检测方法提高了3%~6%。
2021-05-14 09:30:34 490KB 话题检测
1
利用爬虫爬取知乎上关于新冠肺炎话题下的问题及答案以及评论,并利用Django+layui进行可视化
2021-05-13 09:04:17 5.49MB Django 新冠肺炎