新闻网站数据爬取和分析
实现了Chinadaily上特定关键字(COVID-19)相关新闻的爬取和数据分析,可以修改现有代码爬取和分析其他新闻网站。
使用说明
初步步骤
检查python安装成功,可以控制台(cmd)中输入python --version,如果输出版本号,说明安装成功了。
在cmd中执行:
pip3安装numpy matplotlib枕头wordcloud imageio jieba snownlp itchat请求
到此,软件安装完成。
使用
数据爬取
执行
刮y的中国日报
会在工程目录下生成一个covid-19.html,里面包含了标题和内容。数据量比较大,执行的时候会一直控制台刷新消息,等待即可。
数据可视化
执行
python scrapy.py
可以生成词云图片
代码修改
主要修改爬虫下的chinadaily.py文件,修改爬取的URL和parse()函数中的解
2021-06-08 22:39:22
10KB
Python
1