包括java编写的爬虫和用java代码实现的分词,以及Lda算法实现的相关代码!
2021-04-26 15:50:49 5.8MB java爬虫 中科院分词 lda算法
1
爬虫获取电影信息影评并分词写入Excel表 使用Java中基本的Jsoup来进行爬虫操作,分词工具使用jieba分词,excel写入使用jxl
2021-04-26 15:41:00 16KB jsoup jieba java 爬虫
1
本项目是我的毕业设计项目。本人技术水平有限,写出来的东西bug很多,功能也非常不完善,承蒙老师照顾,答辩勉强通过。这个爬虫是针对特定站点的主题爬虫。具备多线程爬取、页面主题相关度计算、子链接主题相关度预测等功能。此外,还包含了一个简单的搜索引擎模块,用于对爬取结果的快速检索。 功能不算很完善,请谨慎下载。
2021-04-24 17:22:32 277KB java爬虫、主题爬虫
1
里面有很多注释,适合新手教学,内附一张运行成功结果图,爬取其他内容亦是如此,欢迎支持
2021-04-12 09:31:09 383KB 爬虫
1
爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。2.x版本中集成了selenium,可以处理javascript生成的数据。
2021-04-09 18:04:11 51KB Java爬虫 WebCollector selenium phantomjs
1
本程序为Java爬虫博客的案例,用于Java爬虫的研究和学习,参考博客地址http://blog.csdn.net/zhang5476499/article/details/52205150
2021-04-09 14:05:55 325KB Java爬虫
1
Java爬虫+自定义任务可解析cron
2021-04-08 16:07:32 6KB Java爬虫
1
工具描述:这是基于HttpClient+Jsoup实现的简单易用的java工具包,案例以豆瓣网为例爬取书籍信息。 如果你想快速的在数据库上获取一定量的数据,这会是个不错的选择! 之前在做一个尚车网站项目的时候,那时候要有很多汽车相关信息的素材,就是使用的这种方法,简单方便 运行环境: IntelliJ IDEA+maven 注意事项: 直接运行测试类中的方法即可; 遇到任何问题加java交流群:876014073。一起探讨,共同进步!
2021-03-25 08:25:57 41KB Java爬虫 网络爬虫
1
一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用
2021-03-23 20:50:17 14.72MB spider
1
使用java爬取国家统计局网站省市区及编码,及数据库设计
2021-03-15 03:51:52 14KB java  爬虫 国家统计局 省市区及编码
1