ir-python 用于信息检索任务的python实现,包括正向/反向索引,基本检索模型(例如BM25,uni-gram语言模型)。 索引模块对LevelDB( )使用线程安全的Python绑定。 LevelDB是快速键值存储库。 运行:sh buildIndex.sh tokenize语料库:buildIndex_tokenize.py输入:Robust2004语料库输出:〜/ Documents / ir / Robust2004 / result / tokenize / 从标记化语料库中提取文档信息:buildIndex_extract.py输入:标记化语料库输出:将单词转换为term_ids到文件/doc.extract格式:[doc_id \ t term_id \ t term_tf \ t position_in_doc] 按编号顺序对/doc.extract中
2021-09-03 15:11:40 85KB Python
1
Google采用C++编写的快速键值存储库,提供了从字符串键到字符串值的有序映射,# 特征 *键和值是任意字节数组。 *数据按键存储。 *调用者可以提供自定义比较功能来覆盖排序顺序。 *基本操作是`Put(key,value)`,`Get(key)`,`Delete(key)`。 *可以在一个原子批中进行多次更改。 *用户可以创建一个瞬态快照以获取一致的数据视图。 *在数据上支持正向和反向迭代。 *使用[Snappy压缩库](http://google.github.io/snappy/)自动压缩数据。 *外部活动(文件系统操作等)通过虚拟接口进行中继,因此用户可以自定义操作系统交互。