ir-python
用于信息检索任务的python实现,包括正向/反向索引,基本检索模型(例如BM25,uni-gram语言模型)。 索引模块对LevelDB( )使用线程安全的Python绑定。 LevelDB是快速键值存储库。
运行:sh buildIndex.sh
tokenize语料库:buildIndex_tokenize.py输入:Robust2004语料库输出:〜/ Documents / ir / Robust2004 / result / tokenize /
从标记化语料库中提取文档信息:buildIndex_extract.py输入:标记化语料库输出:将单词转换为term_ids到文件/doc.extract格式:[doc_id \ t term_id \ t term_tf \ t position_in_doc]
按编号顺序对/doc.extract中
2021-09-03 15:11:40
85KB
Python
1