WebCollector教程!
2021-12-06 17:18:50 72KB WebCollector 爬虫
1
网络收藏家 WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面,您可以在不到5分钟的时间内设置多线程Web爬网程序。 除了通用的搜寻器框架外,WebCollector还集成了CEPF ,这是Wu等人提出的一种精心设计的最新Web内容提取算法: 吴国庆,胡建,李力,徐志,刘PC,胡XG,吴XD。 通过标签路径特征融合的在线Web新闻提取。 阮剑学报/软件学报,2016,27(3):714-735。 主页 安装 使用Maven cn.edu.hfut.dmic.webcollector WebCollector 2.73-alpha </ d
2021-09-09 20:17:39 16.89MB Java
1
利用WebCollector+SpringBoot+Vue+Bootstrap搭建的一个Web应用版的爬虫,可以应付多种直观可以见的页面爬取,通过http://localhost:8886/index.jsp即可访问,其中网站输入为爬取网站首页网址,其余分别填写CSS选择器。
2021-09-09 19:56:48 31.48MB WebCollector SpringBoot Vue Bootstrap
1
爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。2.x版本中集成了selenium,可以处理javascript生成的数据。
2021-04-09 18:04:11 51KB Java爬虫 WebCollector selenium phantomjs
1
java类爬虫WebCollector开发所需要的全部jar包,是目前为止最新版本的。WebCollector2.20以上版本有较大改动,新增MetaData,有很多新特性
2021-03-06 23:17:48 3.5MB WebCollector jar
1