一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用
2021-03-23 20:50:17 14.72MB spider
1
参考webmagic封装的downloader
2021-03-04 11:02:28 7KB webmagic 爬虫 java
1
maven搭建,可以直接运行SpiderOschinaServiceImpl类里的main方法
2020-02-16 03:12:34 50KB 爬虫项目
1
闲来无事最近写了一个全新的爬虫框架WebMagic整合springboot的爬虫程序,不清楚WebMagic的童鞋可以先查看官网了解什么是Webmagic,顺便说说用springboot时遇到的一些坑
2020-01-03 11:34:52 64.89MB 爬虫 springboot Webmagic 多数据源
1
webmagic_V0.7.3(修复https请求报错),本人已经把源码重新编译打包了,如果自己懒得编译可以用我打包好的
2020-01-03 11:29:54 4.07MB 爬虫工具
1
由于项目需要,特研究了一段时间关于java爬虫的相关技术,发现一个比较好用的爬虫框架--WebMagic,只需少量代码即可实现一个爬虫,本项目就是基于它的一个简单实现,导入项目即可运行,项目只有两个类,一个用于抓取,一个用于处理抓取到的数据,存入数据库或导出到excel等(只打印到控制台,后续自己发挥),简单吧,代码真的很少
2019-12-21 20:58:55 11.52MB 爬虫 WebMagic
1
WebMagic(Java)爬虫实现,实现数据爬取,并导出到excel文件
2019-12-21 20:45:06 14.49MB 爬虫 抓取数据
1
webmagic爬虫修复HTTPS下无法抓取只支持TLSv1.2的站点的bug后重新打包的jar,用这个替换原jar,在爬取HTTPS站点后就不会报错了。
2019-12-21 20:10:34 96KB webmagic 爬虫
1
webmagic所有依赖的jar包,亲测可用,全部都有,最新版本哟。
2015-05-21 00:00:00 6.15MB webmagic jar 所有 依赖包
1