介绍
一个可视化的爬虫平台。以流程图的方式配置爬虫,基本上无需编写代码即可完成工作。
本项目源自开源项目 ,本着学习的目的,在它的基础上进行了重构,修复了一些问题,并增加了一些新的功能。
特性
支持 xpath 和 css 选择器
支持选择器提取、正则提取、json 提取等
支持 Cookie 自动管理
支持抓取由 js 动态渲染的页面
支持代理
支持多数据源
内置常用的字符串、日期、文件、加解密等函数
支持结果保存至多目的地(数据库、csv 文件等)
支持插件扩展(自定义执行器,自定义函数等)
支持任务日志
支持爬虫可视化调试
新增的特性:
采用内置数据库 ,做到开箱即用
支持同步执行,对于执行结果有顺序要求的可以使用该功能
增加随机 User-Agent(数据来自: )
增加代理的管理界面,方便进行代理的手工添加(不推荐)和启动代理的自动管理功能
增加身份认证机制,默认账号和密码都
1