排名检索引擎
这是使用(VSM)进行分级检索的索引和搜索技术的Python实现。 具体而言,为向量空间评分实现了加权方案。
对于余弦值的计算,由于不影响查询文档之间的相对余弦分数关系,因此有意将查询向量长度的归一化作为优化决策而省去了。
要求
已安装
使用数字命名的组成文档建立索引和搜索的语料库(例如,NLTK数据中的路透社语料库)
索引编制
命令: $ python index.py -i
-d -p
是要建立索引的文档集合的目录
是要由索引器创建的字典的文件名
行的格式为:“”
最后一行包含元信息,并指示所有以升序索引的docID以及其矢量长度,格式为:
例如metadata:1
1