搜索【WebMagic】的结果

webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用，旨在提供一套完整的数据爬取，持久化存储和可

webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用，旨在提供一套完整的数据爬取，持久化存储和可视化展示的实践样例。 webporter 寓意“我们不生产数据，我们只是互联网的搬运工～” 如果觉得不错，请先在这个仓库上点个 star 吧，这也是对我的肯定和鼓励，谢谢了。目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充，需要关注更新的请 watch、star、fork

2024-11-14 07:46:55 66KB 爬虫 java

1

webmagic-core-0.7.3.jar

解决原webmagic-core-0.7.3 https问题，删除了一些log改为debug

2024-06-25 15:24:18 96KB

1

house_spider:Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis

house_spider Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis 简介 - 基于Java8 +、开源爬虫框架WebMagic、Springboot的一个链家爬虫，上手即用，可以指定需要爬取的城市名称、或者爬取全国。 - 数据存Mysql，默认根据搜索城市+日期自动建表，如搜索“南京”，则会通过JDBC新建表：“南京_20191127” - 没有用WebMagic的Pipeline来存DB，而是直接用JDBC存的，默认爬虫线程数为1，每翻页1页批量插入Mysql。 - 由于链家限制爬取页数为100页，所以一个城市下，先查出所有行政区，再遍历行政区下的所有街道，以每个街道为单位，进行最大100页的爬取，这样基本上能爬下城市的所有房源数据。（部分别墅、车位直接忽略没存DB）使用基础依赖：安装mysq

2022-05-28 23:58:23 80KB Java

1

z2py:最爱片源网源代码（基于Webmagic爬虫实现）

z2py 最爱片源网源代码（基于Webmagic爬虫实现）演示地址：http:

2022-05-01 18:29:12 756KB 系统开源

1

基于springboot+mybatis+echarts+webmagic 的疫情数据可视化网站

JDK1.8 ,IntelliJ IDEA 2020.1 x64, MySQL 5.5.40,node.js v12.16.2 ,Maven 关于echarts,该项目用的图表都是echarts中的基础图表,在官网都可以找到,你也可以用你自己找的图表,插值方式大同小异,这里注意的是地图和词云需要先引入相关js文件,相关文件都可以在echarts官网下载地图和词云需要先引入相关js文件,相关文件都可以在echarts官网下载 https://echarts.apache.org/zh/download-extension.html 五分钟上手echarts https://echarts.apache.org/zh/tutorial.html#5 分钟上手 ECharts 简单实用jieba https://blog.csdn.net/wbcg111/article/details/53191721 selenium基本实用 https://blog.csdn.net/qq_22003641/article/details/79137327 webmagic官方文档

2022-04-27 16:03:44 48.49MB springboot

新浪新闻爬虫

新浪新闻的爬虫，按类别分类，测试的是军事类，只需要修改url就可以爬取其他类别。使用webmgic框架开发，垂直爬虫，爬取后以文件形式保存。

2022-01-11 11:05:47 6.16MB 爬虫 webmagic 新浪新闻 类别

1

spider:利用spring boot + webmagic开发的java爬虫系统-源码

蜘蛛一。简介通过spring boot建造的爬虫系统二。技术选型 spring boot：构建项目框架，比较Swift，集成嵌入式tomcat，部署运行方便，零配置代码简洁 elasticSearch：作为nosql数据存储引擎 elastic-job：分布式作业调度系统，依赖zookeeper环境作为分布式协同 WebMagic：爬虫框架，有去重功能，支持Xpath，regex，css等选择器三。运行方式先启动zookeeper和elasticsearch ，并修改相应配置，然后按下面任意方式启动项目方式一：执行命令mvn spring-boot:run立即启动方式二：maven打成jar包后，将使用命令java -jar spider-1.0.0-SNAPSHOT.war &启动spider-1.0.0-SNAPSHOT.war 方式三：部署在tomcat中直接运行四。

2021-12-09 10:09:20 277KB 系统开源

1

springboot+webmagic实现java爬虫jdbc及mysql的方法

今天小编就为大家分享一篇springboot+webmagic实现java爬虫jdbc及mysql的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

2021-12-06 10:05:06 91KB springboot webmagic jdbc mysql

1

webmagic爬笔虫记.7z

2021-11-18 14:00:24 1.06MB 笔记

1

java实现微信公众号源码-javaCrawling:"奇伢爬虫"是基于sprintboot、WebMagic实现微信公众号文章、新闻、csd

java实现微信公众号源码奇伢爬虫使用介绍导航一.简介基于spring boot 、 WebMagic 实现微信公众号文章、新闻、csdn、info等网站文章爬取，可以动态设置文章爬取规则、清洗规则，基本实现了爬取大部分网站的文章。 (奇伢爬虫技术讨论群：365155351，大家可以加群一起来讨论哦～）二.运行项目 1.运行环境项目开发环境：IntelliJ IDEA 15 , JDK 1.8 2.运行必备配置 2.1.数据库配置先创建数据库，然后修改配置文件的如下属性: spring.datasource.url = jdbc:mysql:// 数据库ip地址 : 数据库端口号/数据库名称?useUnicode=true&characterEncoding=UTF-8 spring.datasource.username = 数据库用户名 spring.datasource.password = 数据库密码 2.2.数据导入我们提供了一些基础数据供大家测试，在新建的数据库中执行文件中的sql，就可以将一些必备的表及数据导入数据库了。 2.3.redis 配置项目中

2021-10-06 19:16:39 96.47MB 系统开源

1

个人信息

热门下载

最新下载

其他资源