SearchEngine用于TREC收集文档
该项目的目标是使用tf-idf和BM25的各种检索模型来实现一个简单的搜索引擎
该项目的目标是使用tf-idf,BM25等各种检索模型在python中为TREC文档构建一个简单的搜索引擎,并使用以下方法比较各种回归模型的性能:
读入文件tccorpus.txt中提供的标记化和词干化的文档集合。 这是ACM通信的早期标准摘要集。 tccorpus.txt中标记化文档集合的格式为:A#后跟文档ID文档ID行下方的行包含文档中的词干。 例如:
# 1
this is a tokenzied line for document 1
this is also a line of document 1
# 2
from here lines for document 2 begin
...
...
# 3
...
构建一个简单的反向索引
2021-09-03 15:12:42
668KB
Python
1