webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。 webporter 寓意“我们不生产数据,我们只是互联网的搬运工~” 如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。 目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork
2024-11-14 07:46:55 66KB 爬虫 java
1
JAVA自动扫描网络上的图片并下载到E:/Img文件夹下,其下载功能使用线程实现,大大减少了需要等待的时间,有兴趣的朋友可以看一下
2023-10-17 07:02:02 1KB JAVA爬虫
1
使用java设计的爬虫,带有完整的程序源代码,加源代码的分析说明。很实用的文档。
2023-09-13 14:25:00 111KB java爬虫 爬虫实例 网络爬虫
1
系统需求概述 要求爬虫系统能完成对凤凰网新闻、网易新闻、新浪新闻、搜狐新闻等网站新闻数据的实时抓取,并正确抽取出正文,获取新闻的点击量,实现每日定时抓取。能将抓取回来的新闻进行中文分词,利用中文分词结果来计算新闻相似度,将相似的新闻合并起来,同时也合并点击率,最后一点,能将相似因为一段事件内的用户点击趋势以合适的形式展现出来。 基于网络爬虫技术的网络新闻分析由以下几个模块构成: 网络爬虫模块。 中文分词模块。 中文相似度判定模块。 数据结构化存储模块。 数据可视化展示模块。 基于网络爬虫技术的网络新闻分析主要用于网络数据爬取。本系统结构如下: (1)网络爬虫模块。 (2)中文分词模块。 (3)中3文相似度判定模块。 (4)数据结构化存储模块。 (5)数据可视化展示模块。
2023-04-13 17:16:56 14.83MB Java 爬虫 分析系统 毕业设计
1
适合有基础的人哈,自行导入编译工具运行,仅供参考学习哈
2023-02-08 14:19:38 282.73MB java 爬虫 爬虫项目实战 java爬虫
1
从京东手机入口,爬取京东手机类商品的名称和价格,价格属于动态爬虫,可以输出到控制台和磁盘文件,文件为压缩包内的Mypageprocessor
2022-12-29 11:54:39 5.59MB java爬虫
1
主要介绍了java 爬虫详解及简单实例的相关资料,需要的朋友可以参考下
2022-12-18 11:56:08 35KB java 爬虫详解 java 爬虫
1
使用jsoup做的java爬虫, 登录自己的天眼查账号, 爬取公司详细数. 不足: 大概执行100次请求之后会被识别为机器人.
2022-12-02 15:23:03 26KB java 爬虫 天眼查
1
本人java小白一个,写的代码可能不会很规范,欢迎交流(*^▽^*)
2022-11-09 14:17:13 3KB java 爬虫 网页
1
完整的java爬虫代码,用于交流学校,下下来可以直接运行。
2022-06-05 01:05:55 273KB 爬虫,大数据
1