人民邮电出版社 邱哲 符滔滔 王学松 编著 《开发自己的搜索引擎Lucene+Heritrix第二版》随书光盘,绝对完全。里面包含了书里面的所有Java源代码和所需jar包,希望对大家有用。由于源文件太大,所以我将其分卷压缩为两部分,请大家务必下载part1与part2成功之后放在同一个文件夹中解压。
2023-05-22 17:49:13 18.32MB 搜索引擎 随书光盘 Lucene Heritrix
1
基于开源搜索引擎工具(如Heritrix +Lucence,或Nutch+Solr),搭建独立完整的搜索引擎测试平台。 2)垂直搜索行业信息:自主选择某一感兴趣行业,抓取相关行业内容。以抓取结果作为数据库,建立垂直搜索引擎,实现这些网站信息的抽取、索引和检索。网页数目不少于1万条。 3)搜索测试:搭建web平台(建议通过Tomcat实现),通过web平台实现垂直搜索引擎系统的搜索功能。
2022-06-07 15:24:03 3.23MB Heritrix 垂直搜索
1
利用 Heritrix 构建特定站点爬虫
2022-04-26 09:08:37 1.24MB 爬虫
1
开发自己的搜索引擎-Lucene 2.0+Heritrix 。包里有《开发自己的搜索引擎-Lucene 2.0+Heritrix》的电子书以及书中的源代码。还有一个自己写的一个简单的应用实例,对学习搜索引擎的朋友应该是很有帮助的。
2022-03-30 22:10:19 6.78MB 搜索引擎 lucene heritrix
1
【完整光盘24.5M】开发自己的搜索引擎-Lucene 2.0+Heritrix.zip 评论+评分后即可返回1分。。O(∩_∩)O 。。谢谢支持。。
1
Java开发,史上最全搜索引擎大集合,包括所有的数据库,论文还有源码,一网打尽。可用于学习和毕设哦,是自己整合学习的资源。
2021-11-21 14:03:04 207.18MB java 搜索引擎 heritrix mysql
1
Heritrix是一个爬虫框架,可加如入一些可互换的组件。
2019-12-21 22:25:40 18.21MB heritrix-1.10.1
1
Heritrix测试war包,根据博客内容测试用的war包
2019-12-21 21:04:40 1.99MB Heritrix war
1
文档中讲述了如何在heritrix中使用pagerank的算法。根据文章中内容很容易将pagerank算法添加到heritrix中去
2019-12-21 19:28:30 783KB heritrix pagerank 文档 重要度
1