基于增强的LDA模型微博热点话题发现,徐慧,夏楠楠,微博已经成为数亿计的用户发布大量信息,从这些庞大的数据信息中提取热点话题成为挑战之一。基于LDA模型对于微博热点话题的挖掘具
2022-05-31 11:01:41 571KB 微博热点话题发现
1
网络食品安全问题话题发现的LDA-Kmeans算法
2022-05-18 19:14:22 469KB 研究论文
1
当前新闻工作主要围绕着热点话题进行信息传播,而在采集新闻信息过程中,新闻机构主要通过网上及记者四处走访获取信息。然后这种方式并不能第一时间有效获取当前热点内容
2022-03-15 22:33:18 7.43MB 热点话题发现
1
基于多策略优化的分治多层聚类算法的话题发现研究.pdf
2021-08-21 13:03:17 365KB 聚类 算法 数据结构 参考文献
基于Hadoop的微博热点话题发现的聚类算法.pdf
2021-08-20 01:24:49 1MB 聚类 算法 数据结构 参考文献
本文设计并实现了一个微博交通内容的热门话题发现及文本聚类系统,便于及时捕获 出微博中的交通话题,有助于更快速准确地对交通事件做出预判和决策。为了能在聚类中更 准确地对文本进行相似度计算,本文采用 word2vec 将词语表示成词向量,并提出了一种基 10 于稠密特征的 DC-word2vec 算法,通过引入高频网络词组成的高维词表对特征向量进行扩维 映射,使其变得稠密化且每一维度都有了具体的实际意义。通过对比其他几类算法的计算相 似度准确率,验证了 DC-word2vec 的效果最佳,并将其应用到 K-means 聚类中,有效提升了 话题聚类的精度。
1
微博热点话题发现系统的设计与实现 论文下载s
2021-05-18 10:04:22 8.68MB 微博 热点发现
1
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法。采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验。实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means。此外,CW-WGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题。
2021-05-14 11:45:33 1.99MB 短文本 话题发现 词共现 社团发现
1
随着微博用户的增多,微博平台的信息更新频繁。针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带来的计算量繁重问题。采用改进的SOM对话题进行聚类,该算法改善了传统文本聚类的不足,进而能有效地发现话题。实验表明该算法较传统文本聚类算法的综合指标F值有明显提高。
1
针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Model,VSM),并结合主题模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潜在语义,把两个模型得到的特征进行特征融合,并应用K-means聚类算法进行话题的发现。实验结果表明,与传统的话题检测方法相比,该模型的调整兰德系数(Adjusted Rand index,ARI)为0.80,比传统的话题检测方法提高了3%~6%。
2021-05-14 09:30:34 490KB 话题检测
1