spiderflow是一个高度灵活可配置的爬虫平台。作为新一代爬虫平台,它以图形化方式定义爬虫流程,不写代码即可完成爬虫。 特性: 支持Xpath/JsonPath/css选择器/正则提取/混搭提取 支持JSON/XML/二进制格式 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete 支持爬取JS动态渲染(或ajax)的页面 支持代理 支持自动保存至数据库/文件 常用字符串、日期、文件、加解密等函数 支持插件扩展(自定义执行器,自定义方法) 任务监控,任务日志 支持HTTP接口 支持Cookie自动管理 支持自定义函数
2022-05-25 16:54:51 1.77MB spiderflow 爬虫平台 java爬虫
1
介绍 一个可视化的爬虫平台。以流程图的方式配置爬虫,基本上无需编写代码即可完成工作。 本项目源自开源项目 ,本着学习的目的,在它的基础上进行了重构,修复了一些问题,并增加了一些新的功能。 特性 支持 xpath 和 css 选择器 支持选择器提取、正则提取、json 提取等 支持 Cookie 自动管理 支持抓取由 js 动态渲染的页面 支持代理 支持多数据源 内置常用的字符串、日期、文件、加解密等函数 支持结果保存至多目的地(数据库、csv 文件等) 支持插件扩展(自定义执行器,自定义函数等) 支持任务日志 支持爬虫可视化调试 新增的特性: 采用内置数据库 ,做到开箱即用 支持同步执行,对于执行结果有顺序要求的可以使用该功能 增加随机 User-Agent(数据来自: ) 增加代理的管理界面,方便进行代理的手工添加(不推荐)和启动代理的自动管理功能 增加身份认证机制,默认账号和密码都
2021-11-17 10:45:33 2.53MB crawler spider websocket visual-crawler
1