首先我们来提取排名前十的热点话题。
因为话题并不等同于关键词,而更像是一些关键词的组合,所以像上面那样直接
提取关键词作为话题似乎并不科学。所以我们这里用LDA(隐含狄利克雷分布)
来进行文本主题抽取。
LDA 在主题模型中占有非常重要的地位,常用来文本分类。LDA由Blei, David
M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以
将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取
出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。
机器学习的模型分为两种,一种是基于策略,即不能给出明确的数据分布的,一
种是基于模型,可以给出分布的形式,但是超参数不知道。kmeans,dbscan是
基于性能和密度的,基于策略寻找最优聚类方案,而PLSA和LDA是基于多项式
分布和狄利克雷分布的,基于参数迭代寻找最优聚类方案的。
来总结一下热点话题形成的特点和关键因素。
首先当然是微博大V发布和转发的消息会更容易成为热点话题,而从大V的用户
画像中可以看出来自北京、上海、广东等发达地区的大V数量更多,他们引起的
热点话题也就多。
其次是一条微博的转发量。转发量越多,自然话题变成热点话题的概率也就更
大。
还有就是各种重大节日和事件的发生。比如像是情人节,恋爱、感情就会变成热
点话题,而如果是奥运会开幕这种事件,运动员就会变成热点话题。热点话题是
随着时间和事件的发生决定的。
而关于工作、生活、学习之类的事情,其实一直都是热点话题,一直被人们所讨
论。
同时,男性和女性各自的热点话题也会有所差异。
以上就是我的微博大V数据分析报告。详细代码见ipynb文档。
2021-12-22 17:08:58
2.13MB
python