项目说明 爬取新浪微博用户数据,为用户画像、情感分析和关系建模等提供结构化数据。 项目依赖的第三方库 HTTPClient Jsoup :解析HTML fastjson 程序核心逻辑: 在 useVersion2014/WeiboCrawler3.main() 中,WeiboCrawler3的实例对象crawler调用crawl()爬取原始数据后存在文件里,剩余代码再解析磁盘上的文件进行抽取和转换得到最后的数据。 crawl()是执行爬取动作的具体函数 String html = crawl.getHTML(url) //根据url获取网址 crawler.isVerification(html) //判断是否需要输入验证码 如果连接超时重新连接 新浪微博模拟登录逻辑 Sina.main() Sina.login(username,passwprd) preLogin(encodeAcco
2024-04-22 22:49:14 185KB Java
1
机械主题爬虫的设计与实现,李兆春,徐立章,由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高、越来越细,基于整个Web �
2024-01-16 09:43:39 311KB 首发论文
1
主题爬虫论文的实现 北大天网搜索引擎TSE源码 北大天网搜索引擎TSE源码
2022-03-03 09:50:23 1.02MB 主题爬虫
1
基于Nutch的分布式主题爬虫的研究与实现,王光,辛阳,随着互联网的日新月异的发展,网络中存储的信息量急剧增加,传统的通用搜索引擎在广泛应用的同时,面临无法满足个性化、专业化检
2021-05-16 21:55:07 564KB 主题爬虫
1
本项目是我的毕业设计项目。本人技术水平有限,写出来的东西bug很多,功能也非常不完善,承蒙老师照顾,答辩勉强通过。这个爬虫是针对特定站点的主题爬虫。具备多线程爬取、页面主题相关度计算、子链接主题相关度预测等功能。此外,还包含了一个简单的搜索引擎模块,用于对爬取结果的快速检索。 功能不算很完善,请谨慎下载。
2021-04-24 17:22:32 277KB java爬虫、主题爬虫
1
爬取百度新闻的新闻,并可以进行主题搜索,搜索结果按照主题相关度进行排序
1
主题爬虫论文
2019-12-21 22:12:21 18.16MB 主题爬虫 论文包
1
网络爬虫是一种能够自动采集互联网信息的程序。网络爬虫不但能够作为搜索引擎的采集器,而且可以用于特定信息的采集,根据某些特定的要求采集网站中的信息,如就业,租房信息等。本文设计并实现了一种基于主题的网络爬虫程序。网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索,对url进行解析、去重等。并应用Java多线程,使爬虫在抓取网页的过程中更有效率。通常评价页面相关度是采用基于内容评价的搜索策略,本文实现了三个常用的相关度评价算法分别是基于网页内容的相关度算法、基于网页内容和标题的相关度算法、基于网页内容和链接结构的相关度算法。
2019-12-21 20:57:10 35KB 主题爬虫 毕业设计
1
主题爬虫的完整实现,具有文章内容判重,主题相似度计算,url去重,通用正文抽取算法,网页内容分词,关键词自动抽取等功能。
2019-12-21 20:01:59 58KB 主题爬虫 定向爬虫
1