对微博大v进行用户画像,关键词提取,热点话题分析.zip

上传者: Mrrunsen | 上传时间: 2021-12-22 17:08:58 | 文件大小: 2.13MB | 文件类型: ZIP
首先我们来提取排名前十的热点话题。 因为话题并不等同于关键词,而更像是一些关键词的组合,所以像上面那样直接 提取关键词作为话题似乎并不科学。所以我们这里用LDA(隐含狄利克雷分布) 来进行文本主题抽取。 LDA 在主题模型中占有非常重要的地位,常用来文本分类。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以 将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取 出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 机器学习的模型分为两种,一种是基于策略,即不能给出明确的数据分布的,一 种是基于模型,可以给出分布的形式,但是超参数不知道。kmeans,dbscan是 基于性能和密度的,基于策略寻找最优聚类方案,而PLSA和LDA是基于多项式 分布和狄利克雷分布的,基于参数迭代寻找最优聚类方案的。 来总结一下热点话题形成的特点和关键因素。 首先当然是微博大V发布和转发的消息会更容易成为热点话题,而从大V的用户 画像中可以看出来自北京、上海、广东等发达地区的大V数量更多,他们引起的 热点话题也就多。 其次是一条微博的转发量。转发量越多,自然话题变成热点话题的概率也就更 大。 还有就是各种重大节日和事件的发生。比如像是情人节,恋爱、感情就会变成热 点话题,而如果是奥运会开幕这种事件,运动员就会变成热点话题。热点话题是 随着时间和事件的发生决定的。 而关于工作、生活、学习之类的事情,其实一直都是热点话题,一直被人们所讨 论。 同时,男性和女性各自的热点话题也会有所差异。 以上就是我的微博大V数据分析报告。详细代码见ipynb文档。

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明