上传者: 42129970
|
上传时间: 2021-11-30 12:13:36
|
文件大小: 90.89MB
|
文件类型: -
基于Lucene的电影搜索引擎
内容介绍
本文研究的主要内容是:面向电影搜索引擎的功能设计和技术实现。搜索引擎功能设计主要包括,信息资源的集成,查询扩展模块,Lucene检索模块,结果可视化。
信息资源的集成主要使用网络爬虫技术,利用java语言的regex包和selenium插件实现模拟登录以获取新浪微博,豆瓣电影,百度百科,相关新闻等不同数据源数据,以文档形式存储。查询扩展模块通过IKAnalayzer实现输入文本的分词和关键词的提取,为检索做准备。Lucene检索主要包括建立索引和对结果文档的排序。搜索结果可视化通过spring MVC框架搭建完整的系统实现。
技术实现主要包括:基于Lucene的全文检索技术,spring MVC框架,java爬虫技术,Python爬虫技术,html+css+JavaScript网页设计等。
实现流程详解
文本预处理
由于数据基本上都是中文的,Luc