首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。
2022-03-12 22:42:29 171KB 主题网络爬虫 信息检索 Web挖掘
1
主题网络爬虫技术在高速公路信息采集中的应用.pdf
2021-11-10 16:05:25 476KB Web开发 开发技术 互联网 网页技术
为本人毕业设计,内含数据库结构、程序源码、论文。程序使用框架springBoot+Mybatis+WebMagic,数据库为MySQL。论文经过查重。
2021-06-12 22:06:40 2.65MB 毕业论文 爬虫 java webmagic
主题网络爬虫研究综述.pdf
2021-05-26 17:01:46 486KB 爬虫
1
本项目是我的毕业设计项目。本人技术水平有限,写出来的东西bug很多,功能也非常不完善,承蒙老师照顾,答辩勉强通过。这个爬虫是针对特定站点的主题爬虫。具备多线程爬取、页面主题相关度计算、子链接主题相关度预测等功能。此外,还包含了一个简单的搜索引擎模块,用于对爬取结果的快速检索。 功能不算很完善,请谨慎下载。
2021-04-24 17:22:32 277KB java爬虫、主题爬虫
1
网络爬虫是一种能够自动采集互联网信息的程序。网络爬虫不但能够作为搜索引擎的采集器,而且可以用于特定信息的采集,根据某些特定的要求采集网站中的信息,如就业,租房信息等。本文设计并实现了一种基于主题的网络爬虫程序。网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索,对url进行解析、去重等。并应用Java多线程,使爬虫在抓取网页的过程中更有效率。通常评价页面相关度是采用基于内容评价的搜索策略,本文实现了三个常用的相关度评价算法分别是基于网页内容的相关度算法、基于网页内容和标题的相关度算法、基于网页内容和链接结构的相关度算法。
2019-12-21 20:57:10 35KB 主题爬虫 毕业设计
1