java实现可配置爬虫源码 MagicToe MagicToe是一个基于Java爬虫框架的Java爬虫实战案例,MagicToe提供了从获取数据到数据持久化、可视化分析以及构建简单的代理池等一系列完整流程,旨在为初涉Java爬虫的程序员提供一个参考教程和一整套完整的解决方案。 仓库目录 :爬虫功能实现模块,使用WebMagic + SpringBoot + MyBatis基础架构,NLP工具包是,定制抽取逻辑,将爬取的数据持久化到MySQL数据库中,本仓库中的代码示例爬取的是虎扑步行街。 :数据分析及可视化模块,使用Spring + SpringMVC + MyBatis的基础架构,数据可视化采用的前端技术是 jsp + 。 (可选):爬取代理网站模块,技术选型同hupu-spider,将代理网站上的免费代理地址爬取到本地数据库中,实现一个简单的IP池,以供hupu-spider作为代理使用。 QuickStart 爬虫模块环境准备: JDK 1.8+ maven 4.0.0+ webmagic 0.7.3+ ansj_seg 5.1.1+ springboot 1.5.7+ myba
2021-08-12 17:45:50 36.14MB 系统开源
1
本测试Demo共包含两个网站,涉及到三个数据页面的操作,三个Controller层由浅及深,可以更快入手,数据才存储数据库的时候,做了重复性的判断,避免重复添加。
2021-06-18 12:07:51 364KB WebMagic Springboot
1
为本人毕业设计,内含数据库结构、程序源码、论文。程序使用框架springBoot+Mybatis+WebMagic,数据库为MySQL。论文经过查重。
2021-06-12 22:06:40 2.65MB 毕业论文 爬虫 java webmagic
本系统以SpringBoot基础框架整合其他技术设计和搭建而成,选用webmagic框架实现单节点的网络爬虫系统,爬虫的生命周期为链接提取、页面下载、内容抽取、持久化,多线程抓取,Redis队列和集合实现网页去重和增量抓取。搜索引擎的索引和搜索系统是利用全文搜索引擎框架(ElasticSearch)构建,由IK分词器实现语句分词地功能,ElasticSearch是一个企业分布式、高扩展、高实时的搜索与数据技术分析处理引擎,可以用于搜索各种文当,它提供可扩展的搜索,具有高效的海量数据搜索、分析和探索的能力。最后实现一个简单的web搜索页面,来模拟搜索引擎客户端
2021-05-15 17:12:39 246KB ElasticSearch webmagic java 搜索引擎
1
webmagic-core-0.5.2.jar
2021-05-14 12:02:34 93KB java jar 架包
1
里面的task包下,是所有的爬虫程序,每个类代表一个城市的网站,学习的朋友可以先看成都,自贡,攀枝花的代码,自己亲自写的。主要使用webmagic,及xpath,css,jsoup,正则。解析页面
2021-04-14 15:16:44 459KB webmagic
1
由于项目需要,特研究了一段时间关于java爬虫的相关技术,发现一个比较好用的爬虫框架--WebMagic,只需少量代码即可实现一个爬虫,本项目就是基于它的一个简单实现,导入项目即可运行,项目只有两个类,一个用于抓取,一个用于处理抓取到的数据,存入数据库或导出到excel等(只打印到控制台,后续自己发挥),简单吧,代码真的很少
2021-04-14 15:09:25 477B WebMagic
1
Web枫 以webmagic为内核的分布式可视化爬虫框架,参考webmagic-avalon的架构,目标是提供可分散部署的爬虫框架,以及可视化的爬虫管理界面。 目前分为三个模块: maple-admin,为webmagic-avalon中的管理员中断,对应一个java进程。负责: 与多个worker通信,监听worker的幸存; 从工人处获得当前爬虫信息,并在前端页面展示; 调用worker的接口创建爬虫。 它是一个Springboot项目,可以直接打包上传到服务器并启动。 maple-worker,为worker承包商,对应一个java进程。一台机器上可部署多个worker。负责: 具体爬虫(spider)的创造和管理; 向管理员异步发送心跳包确保自己的存活。 它和管理员一样是可以直接打成jar包部署的。 枫木网络,为网络通信部分的通用模块。
2021-04-13 13:12:25 16.89MB TypeScript
1
主要介绍了springBoot+webMagic实现网站爬虫的实例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2021-04-09 17:13:07 82KB springBoot webMagic 爬虫 springBoot
1
文件是本人将webmagic、mybatis-plus、HikariCP、hutool等开源项目到一个springboot项目中搭建起来的一个爬虫框架,使用了Spring的@Scheduled注解开启定时任务去开启一个爬虫,processor类负责网站的爬取,pipline类负责将爬取的内容通过Mybatis-Plus存储到MySQL数据库;去除webmagic部分,本框架也是一个完整的springboot+mybatis-plus的架构,里面用的基本上都是当前最新的技术,公布出来主要是与大家共同学习,有问题可以指出。注意:数据库结构的SQL在项目的sql文件夹下,启动项目前请修改数据库连接以及定时任务的cron表达式
2021-04-08 21:37:15 23KB springboot webmagic mybatis-plus 爬虫
1