软件架构说明
后台:Django、数据库:MySQL8、数据可视化:Pyecharts、情感分析:SnowNLP、分词处理:Jieba
功能实现:
(1)话题广场舆论监控模块
实时监控新出现的热点话题:由于微博平台具有数据量大、信息碎片化严重、用户质量良莠不齐、信息传播快等特性,通过人工方式无法进行有效的舆情分析。 监测微博舆情采用技术性方式,一方面能够确保信息监测的全面性,另一方面能够提升舆情信息监测搜索的效率。 微博舆情监测的实现过程是,每日定时、周期性地对微博进行网页抓取后,对其你内容实行解析后保存到数据库或者特定格式的文件中,再通过用户设定的关键词库对采集的数据进行关键词集过滤,由此获得敏感舆情信息文本返回给用户界面。系统还应对收集的信息进行自然语言处理,从而识别到热点话题和热门事件。
(2)热点话题排名模块
对当前时间段以及指定时间段的热点话题进行热度排名:定期对微博热搜榜单进行爬取,将获取的热搜信息和热度等信息保存到本地,然后绘制排名情况,并在后面的数据可视化中进行展示
(3)实时热度追踪模块
对热点话题的热度进行追踪并记录热度变化情况
(4)微博用户数据分析模块
微博主页内容的采集、获取TA的粉丝与关注者列表并进行画像分析:针对指定的微博用户,例如某明星进行该用户发的微博进行爬取,并且对该微博的转发、点赞、评论信息进行爬取,并保存到本地,然后分析该用户微博的主要受众,针对受众再进行画像分析。
(5)文本可视化模块
对热点话题制作词云图、对热门评论制作词云图:从微博热搜话题中爬取相关话题后,对带有热搜关键字的微博进行爬取并保存这些内容到本地,然后调用Wordcloud模块进行词云图的分析和绘制
(6)数据可视化模块
热点话题热度情况的可视化、微博用户粉丝数量变化、单条微博转赞评数量的可视化:使用pyecharts模块,pyecharts 是一个用于生成 Echarts 图表的类库。echarts是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。 使用 pyecharts可以生成独立的网页,也可以在 flask , Django中集成使用。
(7)数据导出模块
将爬取的数据导出到为Excel、txt、pdf等格式