红外搜索引擎
最少的搜索引擎在信息检索课程中的应用
描述
这是一个最小的搜索引擎应用程序项目。 有关更多详细信息,请检查project documents目录中的project documents 。
使用的技术
Java 1.8
Lucene 6.6
Maven的3.3.9
详细说明
主要成分:
搜索器:搜索器组件的主要任务是在提供索引文件路径和查询文件路径的情况下搜索索引,然后准备查询结果列表。
索引器:索引器组件的主要任务是索引给定路径中的文档并将结果写入给定目录。
分解器:此组件采用语料库文件的路径并将其分解为单独的文本文件,因此在给定路径中索引和检索并保存分解结果将更加容易。
NewTFIDF:这是一种新的tf-idf相似性评分策略,可计算术语的tf-idf度量。
如何定义新的TF-IDF评分策略:
为了定义新的td-idf相似性评分策略,我创建了一个名为BaseT
1