webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。 webporter 寓意“我们不生产数据,我们只是互联网的搬运工~” 如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。 目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork
2024-11-14 07:46:55 66KB 爬虫 java
1
Java网页爬虫 JSpider
2022-06-06 14:02:26 5.91MB 爬虫 java 综合资源 开发语言
一个网上找到的JAVA开发的关于微博的爬虫程序,希望能够分享给大家,详细内容请看压缩文件
2022-05-13 09:19:29 1.42MB 微博 网络 JAVA
1
主要介绍了Java爬虫Jsoup+httpclient获取动态生成的数据的相关资料,需要的朋友可以参考下
1
1) Java实现对Baidu新闻网站(http://news.baidu.com/)新闻列表信息的采集功能; 2) 将采集结果保存到MySQL数据库中。 1) 基于Java语言实现; 2) 新闻采集信息至少包含:新闻类别|新闻标题|采集时间等信息。扩展采集信息(可选)包括:新闻来源|发布时间信息; 3) 要求具有基于新闻标题的新闻查重功能(相同标题的新闻只保存一条)。
2022-05-08 15:45:40 389KB 爬虫 java jsoup
1
个人无聊时写的一个爬取小说网站小说及章节目录的爬虫示例,比较简单,但会对一些java初学者有一定的启发作用,提高他们对java方面的学习、工作兴趣。
2022-04-15 16:21:06 5KB 爬虫 java
1
爬虫爬取网易汽车车型库【Java代码】不同品牌/车标(共175个车标)下不同车系(共1650个系列)的的图片(各八张)
2022-04-15 16:06:22 5KB 爬虫,java
1
java爬虫项目实战源码.rar
2022-04-09 09:02:34 272.08MB 爬虫 java 开发语言 后端
京东,苏宁,天猫爬虫JAVA程序 爬取京东、苏宁、天猫网站上的商品信息,例如:商品名称、商品热点、商品价格、商品照片等信息
2022-04-05 23:00:17 42.23MB 爬虫,jsoup
1
CrawlScript-bin-beta0.3 ,CrawlScript语言0.3beta版,无需配置。 JAVA的爬虫脚本语言,用几行代码即可实现对整个网站的爬取,直接执行demo中的代码,可以获取整个新华网的所有的新闻(从网页中提取出的干净的新闻)。
2022-03-30 08:49:03 7MB 爬虫 JAVA 脚本 网络
1