新闻网站数据爬取和分析 实现了Chinadaily上特定关键字(COVID-19)相关新闻的爬取和数据分析,可以修改现有代码爬取和分析其他新闻网站。 使用说明 初步步骤 检查python安装成功,可以控制台(cmd)中输入python --version,如果输出版本号,说明安装成功了。 在cmd中执行: pip3安装numpy matplotlib枕头wordcloud imageio jieba snownlp itchat请求 到此,软件安装完成。 使用 数据爬取 执行 刮y的中国日报 会在工程目录下生成一个covid-19.html,里面包含了标题和内容。数据量比较大,执行的时候会一直控制台刷新消息,等待即可。 数据可视化 执行 python scrapy.py 可以生成词云图片 代码修改 主要修改爬虫下的chinadaily.py文件,修改爬取的URL和parse()函数中的解
2021-06-08 22:39:22 10KB Python
1
这是配合https://blog.csdn.net/CUFEECR/article/details/104550773的代码和数据,可以用于进行测试和交流学习,不得滥用,违者请自负责任。
1
入门 const kickstarterCrawler = require ( 'kickstarter-crawler' ) ; // kickstarter project url const URL = 'https://www.kickstarter.com/projects/maxtemkin/philosophy-posters/' // returns promise const result = kickstarterCrawler ( URL ) ; result . then ( ( data ) => console . log ( data ) ) ; // output { title : 'Philosophy Posters' , creator : 'Max Temkin' , description : 'Ten giant philosop
2021-05-29 12:03:03 5KB JavaScript
1
爬虫相关的一些Hook 在练习爬虫技能的时候为了方便定位分析写了一大坨hook套件,后期逐步开源到这里。
2021-05-29 12:03:02 5.84MB JavaScript
1
使用Selenium爬网站数据
2021-05-18 17:03:13 19.96MB Selenium phantomjs C#
1
爬虫+selenium自动化+C#+采集器+strong-web-crawler-master。
2021-05-18 11:49:49 19.96MB C# seleni
1
这是配合https://blog.csdn.net/CUFEECR/article/details/104515322的代码和数据,可以用于进行测试和交流学习,不得滥用,违者请自负责任。
1
根据画师ID下载图片
2021-04-10 22:00:55 360KB java jsoup
1
Google Play搜寻器 一种抓取工具,可从Google Play抓取所有应用程序的数据并将其保存到MySQL。 要求 的Python 3 MySQL 用法 # Clone this repo git clone https://github.com/yaoandy107/google_play_crawler.git # Switch the directory cd google_play_crawler # Install all the package required in this project pip3 install -r requirements.txt # Run SQL initial script (There is many way to run this script) mysql -uroot < init.sql # Run crawler scra
2021-04-06 16:14:22 12KB Python
1