对微博大v进行用户画像，关键词提取，热点话题分析.zip

python

首先我们来提取排名前十的热点话题。因为话题并不等同于关键词，而更像是一些关键词的组合，所以像上面那样直接提取关键词作为话题似乎并不科学。所以我们这里用LDA（隐含狄利克雷分布）来进行文本主题抽取。 LDA 在主题模型中占有非常重要的地位，常用来文本分类。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。机器学习的模型分为两种，一种是基于策略，即不能给出明确的数据分布的，一种是基于模型，可以给出分布的形式，但是超参数不知道。kmeans，dbscan是基于性能和密度的，基于策略寻找最优聚类方案，而PLSA和LDA是基于多项式分布和狄利克雷分布的，基于参数迭代寻找最优聚类方案的。来总结一下热点话题形成的特点和关键因素。首先当然是微博大V发布和转发的消息会更容易成为热点话题，而从大V的用户画像中可以看出来自北京、上海、广东等发达地区的大V数量更多，他们引起的热点话题也就多。其次是一条微博的转发量。转发量越多，自然话题变成热点话题的概率也就更大。还有就是各种重大节日和事件的发生。比如像是情人节，恋爱、感情就会变成热点话题，而如果是奥运会开幕这种事件，运动员就会变成热点话题。热点话题是随着时间和事件的发生决定的。而关于工作、生活、学习之类的事情，其实一直都是热点话题，一直被人们所讨论。同时，男性和女性各自的热点话题也会有所差异。以上就是我的微博大V数据分析报告。详细代码见ipynb文档。

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

对微博大v进行用户画像，关键词提取，热点话题分析.zip

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载