介绍 一个可视化的爬虫平台。以流程图的方式配置爬虫,基本上无需编写代码即可完成工作。 本项目源自开源项目 ,本着学习的目的,在它的基础上进行了重构,修复了一些问题,并增加了一些新的功能。 特性 支持 xpath 和 css 选择器 支持选择器提取、正则提取、json 提取等 支持 Cookie 自动管理 支持抓取由 js 动态渲染的页面 支持代理 支持多数据源 内置常用的字符串、日期、文件、加解密等函数 支持结果保存至多目的地(数据库、csv 文件等) 支持插件扩展(自定义执行器,自定义函数等) 支持任务日志 支持爬虫可视化调试 新增的特性: 采用内置数据库 ,做到开箱即用 支持同步执行,对于执行结果有顺序要求的可以使用该功能 增加随机 User-Agent(数据来自: ) 增加代理的管理界面,方便进行代理的手工添加(不推荐)和启动代理的自动管理功能 增加身份认证机制,默认账号和密码都
2021-11-17 10:45:33 2.53MB crawler spider websocket visual-crawler
1
蜘蛛 考研调剂收集关键信息,将本身的信息进行过滤,筛选符合自己的可调剂信息。注:代码中替换Cookie。
2021-11-13 13:50:47 3KB Python
1
Qdata - Python SDK for index and search 为什么给项目改了名 想做一个提供更多数据的SDK包,但不一定有时间。。。 老的代码包可以在里找到 会根据我自己个人的数据需求,往里面添加不同的数据源,如果恰好帮助到你,很开心 老的数据源会尽力维护 Data Source Install pip uninstall pycrypto # 避免与pycryptodome冲突 pip install --upgrade qdata Examples 百度指数 ./examples/test_baidu_index.py 百度搜索 ./examples/test_baidu_search.py 百度登录(获取百度Cookie) ./examples/test_baidu_login.py 目前只提供二维码登录,密码账号登录也可以做,但不做,因为没必要。 幸好工作不做
2021-11-11 16:26:38 60KB Python
1
淘宝、天猫商品爬虫 配置淘宝商品ID,通过Web版和H5版本HTML、API数据结合,抓取淘宝、天猫商品的数据 Requirement Installation composer require "shjia/taobao_spider:~1.0" Usage <?php require_once 'src/spider.php'; use Ezspider\spider; $importModel = new \Ezspider\spider; $importModel->setItemId('569643840385'); if(empty($importModel->initGoodsPlatform())){ return; } $params['name'] = $importModel->getGoodsTitle(); $params['image'] = $impo
2021-11-10 19:49:49 11KB php spider taobao tmall
1
今日头条 【转行三重奏】-爬虫Js逆向复习-今日头条as,cp,_signature参数分析。 变更记录 2020/1/10:调整_signature功能部分代码(连续日前有效) 2020/2/27:issue上一个朋友反映的签名失效(因准备转行的关系不再维护,此项目已无实际用途,仅作为个人学习记录)。 逆向简述 1,馈送关键字XHR断点,推测为this._setParams这个方法生成为,cp参数,断点调试。 function a ( ) { var t = Math . floor ( ( new Date ) . getTime ( ) / 1e3 ) , e = t . toString ( 16 ) . toUpperCase ( ) , i = ( 0 , o . default ) ( t ) . toString ( ) . to
2021-11-10 17:13:08 162KB nodejs spider toutiao JavaScript
1
含源文件如下: 1.rule_zhuanyeke.py 专业课查询字段集 2.spider_base.py 获取验证码;模拟登入 3.spider_gongxuanke.py 公选课爬虫 4.spider_gongbike.py 公必课爬虫 5.spider_zhuanyeke.py 专业课爬虫 6.checker.py 检查基本合法性 7.sender.py 发送至掌上武大空教室API接口 在spider_base.py中填写_id和pwd,作为教务登入的账号密码 运行python spider_gongxuanke.py(或其他两个),根据获得的验证码图片img.jpg,在命令行输入验证码 爬虫获
2021-11-06 15:16:51 95KB Python
1
微博收藏夹图片爬虫 1. 新建images图片文件夹 2. 新建config文件夹 3. 在config文件夹下新建index.js文件 内容如下: exports.cookies = '' // https://m.weibo.cn 登录后的cookies exports.containerid = '' // https://m.weibo.cn/ => 我 => 我的收藏 => 地址栏上的containerid $yarn #or $npm install $npm run dev
2021-11-06 14:48:33 33KB JavaScript
1
复制书 嘻嘻,这个网站内容好像挺有意思,不过,下一秒它们就是我的了 一,用到的技术: 运行环境:python3.6爬虫框架:scrapy数据库:sqlite web框架:Django,bootstrap安装依赖: python -m pip install scrapy python -m pip install django python -m pip install Pillow 运行方式: 启动爬虫 cd bookspider python start.py 启动网站 cd djangotest python manage.py migrate python manage.py r
2021-11-03 11:05:53 178KB python django spider scrapy
1
PPBC中国植物图像库爬虫 最近在做一个课设需要大量花卉植物的图片来做训练集,于是写了一个爬虫,从中国植物图像库抓图。 使用前需要在上找到所需植物的种(Species),例如: 被子植物门 Angiospermae >> 白花丹科 Plumbaginaceae >> 白花丹属 Plumbago >> 白花丹 Plumbago zeylanica 找到白花丹种的网址如下 网址末端可找到sp号26094,这个便是白花丹的唯一标识。 可获取多个sp号后一起爬取,具体设置在ppbc.py文件中可以找到。 scrapy自带缩略图功能,但不是等比例压缩,重写PicscrapyPipeline部分函数,在使用Pipeline爬图的同时用PIL等比例压缩,保存原图和压缩图,图片按编号顺序命名、按花卉名称分文件夹保存。 Scrapy版本: 1.5.0 Python版本:3.6.4
2021-11-02 11:56:16 6KB scraper spider scrapy Python
1
Python3爬虫实战 简介 包含数十个python3爬虫实战案例。如果喜欢请star与fork,这是对我继续更新下去的最大支持 作者 ok 电子邮件 博客 QQ讨论群 Python爬虫实战 字体加密 | | 验证码【仅作学术讨论】 | | 参数生成 失效|! | | | | | | | | | | | 自动登录 | | | | | | | | | | | | | | | | | | 其他实战 | | | | | | | | | | | | | | | | 原创工具 此工具包在我另外一个项目中,欢迎star 【推荐】爬虫练习网 一个很不错的爬虫练习题网,内涵几个个爬虫
2021-10-22 11:54:49 3.02MB python crawler spider selenium
1