输入自己需要爬取的名称和爬取页数,会自动在当前路径下生成一个文件夹来存放CSV文件,,需要安装自动化测试工具Chrom的驱动,本程序仅供娱乐,禁止恶意爬取数据,造成严重后果的需要承担相应的法律责任
2021-07-13 16:04:41 8.5MB 爬虫
GUI地址:https://github.com/xyjigsaw/Weibo-Crawler-GUI 这是纯代码非GUI的博文:http://www.omegaxyz.com/2018/02/13/python_weibo/ GUI程序的功能: ①输入需要被爬取的微博的ID,点击运行选择保存的位置即可爬取。 ②进度可视化界面。 ③如果内置代理失效可以进行代理自定义设置。 ④可视化被爬取微博者的个人信息。
2021-06-23 00:47:06 737B Python
1
适合python新手的爬虫demo
2021-06-21 14:15:39 17KB python 爬虫
1
Scrapy框架爬虫小程序Demo,安装好环境后可直接运行
2021-06-17 16:11:58 27.34MB python 爬虫 scrapy
1
这是纯代码非GUI的博文:http://www.omegaxyz.com/2018/02/13/python_weibo/ GUI程序的功能: ①输入需要被爬取的微博的ID,点击运行选择保存的位置即可爬取。 ②进度可视化界面。 ③如果内置代理失效可以进行代理自定义设置。 ④可视化被爬取微博者的个人信息。
2021-05-31 15:44:56 10.35MB python 爬虫
1
设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页; (4)能够对crawler 的一些基本参数进行设置,包括:搜集深度(depth)、文件类型、 文件大小等。 (5)对搜集的过程生成日志文本文件,格式为三元组: 时间戳(timestamp) Action URL Action 可表示当前的处理动作,例如processing(处理),parsing(解析),downloading (下载)等。对Action 的定义,请在实验报告中详细说明。 (6)遵循礼貌规则。必须分析robots.txt 文件和meta tag 有无限制;一个线程抓完一个 网页后要适当停顿(sleep);最多允许与被搜集站点同时建立2 个连接(本地做网页解析的 线程数则不限)。 (7)采用多线程并行编程技术,提高搜集速度。
2021-05-22 20:02:09 286KB java网络爬虫
1
使用scrapy-redis开发,可以使用分布式爬取,也可以单击运行,能对爬取过的文章和章节进行去重,加快采集速度
1
师兄写的python 爬虫的程序,师兄写的python 爬虫的程序
2019-12-21 19:54:45 5KB python 爬虫的程序
1