本测试Demo共包含两个网站,涉及到三个数据页面的操作,三个Controller层由浅及深,可以更快入手,数据才存储数据库的时候,做了重复性的判断,避免重复添加。
2021-06-18 12:07:51 364KB WebMagic Springboot
1
为本人毕业设计,内含数据库结构、程序源码、论文。程序使用框架springBoot+Mybatis+WebMagic,数据库为MySQL。论文经过查重。
2021-06-12 22:06:40 2.65MB 毕业论文 爬虫 java webmagic
本系统以SpringBoot基础框架整合其他技术设计和搭建而成,选用webmagic框架实现单节点的网络爬虫系统,爬虫的生命周期为链接提取、页面下载、内容抽取、持久化,多线程抓取,Redis队列和集合实现网页去重和增量抓取。搜索引擎的索引和搜索系统是利用全文搜索引擎框架(ElasticSearch)构建,由IK分词器实现语句分词地功能,ElasticSearch是一个企业分布式、高扩展、高实时的搜索与数据技术分析处理引擎,可以用于搜索各种文当,它提供可扩展的搜索,具有高效的海量数据搜索、分析和探索的能力。最后实现一个简单的web搜索页面,来模拟搜索引擎客户端
2021-05-15 17:12:39 246KB ElasticSearch webmagic java 搜索引擎
1
webmagic-core-0.5.2.jar
2021-05-14 12:02:34 93KB java jar 架包
1
里面的task包下,是所有的爬虫程序,每个类代表一个城市的网站,学习的朋友可以先看成都,自贡,攀枝花的代码,自己亲自写的。主要使用webmagic,及xpath,css,jsoup,正则。解析页面
2021-04-14 15:16:44 459KB webmagic
1
由于项目需要,特研究了一段时间关于java爬虫的相关技术,发现一个比较好用的爬虫框架--WebMagic,只需少量代码即可实现一个爬虫,本项目就是基于它的一个简单实现,导入项目即可运行,项目只有两个类,一个用于抓取,一个用于处理抓取到的数据,存入数据库或导出到excel等(只打印到控制台,后续自己发挥),简单吧,代码真的很少
2021-04-14 15:09:25 477B WebMagic
1
Web枫 以webmagic为内核的分布式可视化爬虫框架,参考webmagic-avalon的架构,目标是提供可分散部署的爬虫框架,以及可视化的爬虫管理界面。 目前分为三个模块: maple-admin,为webmagic-avalon中的管理员中断,对应一个java进程。负责: 与多个worker通信,监听worker的幸存; 从工人处获得当前爬虫信息,并在前端页面展示; 调用worker的接口创建爬虫。 它是一个Springboot项目,可以直接打包上传到服务器并启动。 maple-worker,为worker承包商,对应一个java进程。一台机器上可部署多个worker。负责: 具体爬虫(spider)的创造和管理; 向管理员异步发送心跳包确保自己的存活。 它和管理员一样是可以直接打成jar包部署的。 枫木网络,为网络通信部分的通用模块。
2021-04-13 13:12:25 16.89MB TypeScript
1
主要介绍了springBoot+webMagic实现网站爬虫的实例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2021-04-09 17:13:07 82KB springBoot webMagic 爬虫 springBoot
1
文件是本人将webmagic、mybatis-plus、HikariCP、hutool等开源项目到一个springboot项目中搭建起来的一个爬虫框架,使用了Spring的@Scheduled注解开启定时任务去开启一个爬虫,processor类负责网站的爬取,pipline类负责将爬取的内容通过Mybatis-Plus存储到MySQL数据库;去除webmagic部分,本框架也是一个完整的springboot+mybatis-plus的架构,里面用的基本上都是当前最新的技术,公布出来主要是与大家共同学习,有问题可以指出。注意:数据库结构的SQL在项目的sql文件夹下,启动项目前请修改数据库连接以及定时任务的cron表达式
2021-04-08 21:37:15 23KB springboot webmagic mybatis-plus 爬虫
1
一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用
2021-03-23 20:50:17 14.72MB spider
1