项目1
一个使用倒排索引和向量空间模型的简单信息检索项目。
1)源代码只是一个python文件ir.py。
2)代码是用Python 2.7编写的。
3)代码中的query_file和base_dir变量要分别设置为query文件和blogs目录。
4)查询文件格式为:企鹅851 March每行一个查询,不带引号。
5)每个实现的IR模型都有一个后缀(名称)。 TFIDF:'stem' LogtfIDF:'stem-logtf' TFIDF-Positional:'stem-positional' BM25:'stem-bm25' 语言模型:'stem-lm' 拉普拉斯平滑语言模型:'stem-lmls'
为了对两个模型的两个分数进行线性求和,可以将 main(methods) 中的方法设置为我们打算在最终结果中使用的后缀列表。 例如 main(methods=['stem'
2022-04-07 13:36:29
117KB
Python
1