webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。 webporter 寓意“我们不生产数据,我们只是互联网的搬运工~” 如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。 目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork
2024-11-14 07:46:55 66KB 爬虫 java
1
解决原webmagic-core-0.7.3 https问题,删除了一些log改为debug
2024-06-25 15:24:18 96KB
1
house_spider Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis 简介 - 基于Java8 +、开源爬虫框架WebMagic、Springboot的一个链家爬虫,上手即用,可以指定需要爬取的城市名称、或者爬取全国。 - 数据存Mysql,默认根据搜索城市+日期自动建表,如搜索“南京”,则会通过JDBC新建表:“南京_20191127” - 没有用WebMagic的Pipeline来存DB,而是直接用JDBC存的,默认爬虫线程数为1,每翻页1页批量插入Mysql。 - 由于链家限制爬取页数为100页,所以一个城市下,先查出所有行政区,再遍历行政区下的所有街道,以每个街道为单位,进行最大100页的爬取,这样基本上能爬下城市的所有房源数据。(部分别墅、车位直接忽略没存DB) 使用 基础依赖:安装mysq
2022-05-28 23:58:23 80KB Java
1
z2py 最爱片源网源代码(基于Webmagic爬虫实现) 演示地址:http:
2022-05-01 18:29:12 756KB 系统开源
1
JDK1.8 ,IntelliJ IDEA 2020.1 x64, MySQL 5.5.40,node.js v12.16.2 ,Maven 关于echarts,该项目用的图表都是echarts中的基础图表,在官网都可以找到,你也可以用你自己找的图表,插值方式大同小异,这里注意的是 地图和词云需要先引入相关js文件,相关文件都可以在echarts官网下载 地图和词云需要先引入相关js文件,相关文件都可以在echarts官网下载 https://echarts.apache.org/zh/download-extension.html 五分钟上手echarts https://echarts.apache.org/zh/tutorial.html#5 分钟上手 ECharts 简单实用jieba https://blog.csdn.net/wbcg111/article/details/53191721 selenium基本实用 https://blog.csdn.net/qq_22003641/article/details/79137327 webmagic官方文档
2022-04-27 16:03:44 48.49MB springboot
新浪新闻的爬虫,按类别分类,测试的是军事类,只需要修改url就可以爬取其他类别。使用webmgic框架开发,垂直爬虫,爬取后以文件形式保存。
2022-01-11 11:05:47 6.16MB 爬虫 webmagic 新浪新闻 类别
1
蜘蛛 一。简介 通过spring boot建造的爬虫系统 二。技术选型 spring boot:构建项目框架,比较Swift,集成嵌入式tomcat,部署运行方便,零配置代码简洁 elasticSearch:作为nosql数据存储引擎 elastic-job:分布式作业调度系统,依赖zookeeper环境作为分布式协同 WebMagic:爬虫框架,有去重功能,支持Xpath,regex,css等选择器 三。运行方式 先启动zookeeper和elasticsearch ,并修改相应配置,然后按下面任意方式启动项目 方式一:执行命令mvn spring-boot:run立即启动 方式二:maven打成jar包后,将使用命令java -jar spider-1.0.0-SNAPSHOT.war &启动spider-1.0.0-SNAPSHOT.war 方式三:部署在tomcat中直接运行 四。
2021-12-09 10:09:20 277KB 系统开源
1
今天小编就为大家分享一篇springboot+webmagic实现java爬虫jdbc及mysql的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2021-12-06 10:05:06 91KB springboot webmagic jdbc mysql
1
webmagic爬笔虫记.7z
2021-11-18 14:00:24 1.06MB 笔记
1
java实现微信公众号源码 奇伢爬虫使用介绍 导航 一.简介 基于spring boot 、 WebMagic 实现 微信公众号文章、新闻、csdn、info等网站文章爬取,可以动态设置文章爬取规则、清洗规则,基本实现了爬取大部分网站的文章。 (奇伢爬虫技术讨论群:365155351,大家可以加群一起来讨论哦~) 二.运行项目 1.运行环境 项目开发环境:IntelliJ IDEA 15 , JDK 1.8 2.运行必备配置 2.1.数据库配置 先创建数据库,然后修改配置文件的如下属性: spring.datasource.url = jdbc:mysql:// 数据库ip地址 : 数据库端口号/数据库名称?useUnicode=true&characterEncoding=UTF-8 spring.datasource.username = 数据库用户名 spring.datasource.password = 数据库密码 2.2.数据导入 我们提供了一些基础数据供大家测试,在新建的数据库中执行文件中的sql,就可以将一些必备的表及数据导入数据库了。 2.3.redis 配置 项目中
2021-10-06 19:16:39 96.47MB 系统开源
1