纯python编写的搜索引擎原型,适合入门学习,源代码一共1000多行。包括一个通过XML配置的多线程的网络爬虫,最简单的analyzer,indexer,query,ranker,实现了词频排序和pagerank排序。还有一个简单的服务器模型。
2021-11-30 18:23:53 29KB python 搜索引擎 爬虫 lucene
1
基于Lucene的电影搜索引擎 内容介绍 本文研究的主要内容是:面向电影搜索引擎的功能设计和技术实现。搜索引擎功能设计主要包括,信息资源的集成,查询扩展模块,Lucene检索模块,结果可视化。 信息资源的集成主要使用网络爬虫技术,利用java语言的regex包和selenium插件实现模拟登录以获取新浪微博,豆瓣电影,百度百科,相关新闻等不同数据源数据,以文档形式存储。查询扩展模块通过IKAnalayzer实现输入文本的分词和关键词的提取,为检索做准备。Lucene检索主要包括建立索引和对结果文档的排序。搜索结果可视化通过spring MVC框架搭建完整的系统实现。 技术实现主要包括:基于Lucene的全文检索技术,spring MVC框架,java爬虫技术,Python爬虫技术,html+css+JavaScript网页设计等。 实现流程详解 文本预处理 由于数据基本上都是中文的,Luc
2021-11-30 12:13:36 90.89MB Java
1
用盘古分词器做的搜索引擎
2021-11-29 19:10:38 3.33MB 盘古分词 lucene net netcore
1
基于Lucene的引擎PPT源码,这是幻灯片格式的。
2021-11-28 14:01:40 2.54MB 搜索引擎
1
本来不想这样的,但是网上太坑了
2021-11-26 16:12:08 104KB Lucene 庖丁解牛 分词器
1
Spring框架初学者的应用,Lucene框架的简单实用,内涵数据集。
2021-11-21 20:44:42 61.32MB web开发
1
这是一个Lucene.net的多索引示例,以数据库的动态数据为数据源,每个表对应一个索引,使用了盘古分词方法,适用于中文的分词,并且实现了增删改查的所有功能。 同时,在查询索引时,适用了分页方法,可直接引用到项目中使用。 无需修改即可运行,代码有明确的注释,一看就懂。
2021-11-12 10:46:06 3.25MB Lucene.net 增删改查 多索引 盘古分词
1
本资源是针对于Lucene.Net提供的所需代码开发的dll文件,通时也包括使用分词所需要的Dict文件
2021-11-11 14:01:14 1.41MB Lucene.Net 搜索分词
1
此中型搜索引擎由ShootSearch优化而来,所有版权仍归ShootSearch所有,同时感谢原作者尹君。
2021-11-10 09:36:30 8.46MB 搜索引擎 Lucene
1
整理开发Lucene+盘古分词 开发搜索引擎用到的所有必备资源 亲测可用
2021-11-10 09:33:18 2.47MB Lucene dict PanGu Analyzer
1