基于倒排索引的小型文档搜索引擎,用C/C++实现
2021-12-10 12:45:09 7.11MB C/C++ 数据结构
1
信息检索,基本索引的建立,包括对歌词文件的,读取单词,排序,建立倒排缩影的全部过程,整个过程都有详细的流程说明,附加文档说明喔!
2021-12-10 12:34:47 25KB 倒排索引 c++
1
Lucene-Inverted-Index 信息检索倒排索引作业 要求有检索界面 中文语料支持
2021-12-07 20:36:16 7KB Java
1
倒排索引的缺点 很大的存储开销 50% - 150% - 300% 更新、插入和删除都需要很高的维护开销,倒排索引相对静态的环境(很少插入和更新)中使用比较好 处理开销随着布尔操作的增加而增长 由于postings越来越多(例如引入同义词),导致索引检索的代价越来越大,需要对位置进行很多处理(例如短语匹配) *
2021-12-03 15:06:31 488KB 信息检索 加权检索
1
基于MapReduce的简单倒排索引的建立
2021-11-28 22:11:41 1.8MB MapReduce 倒排索引
1
使用倒排索引实现的简单的搜索引擎demo 能对莎士比亚全集的文本进行搜索,并显示该词语所在的篇目和所在句子 源代码及说明也可在github获取 https://github.com/yunwei37/myClassNotes
2021-11-22 21:22:59 12.98MB 搜索引擎 倒排索引 数据结构
1
Boolean Retrival(布尔检索) and Posting Lists(倒排索引表) 问题描述 利用文档和词项的布尔关系建立倒排索引表,根据倒排索引表进行布尔表达式查询.这里只实现AND操作. 布尔检索 布尔检索模型React了文档和词项集合的关系 布尔检索模型为一个关于词项-文档关联的二维矩阵,其中每一行表示一个词(term),每列表示一个文档(document).当词t在文档d中存在时,矩阵元素(t,d)的值为1,否则为0 倒排索引 每个词项都有一个记录出现该词项所有文档的列表,该表中的每个元素记录的时词项在某个文档中的一次出现信息(有时候还会包括词项在文档中出现的位置),这个表中的每个元素通常称为倒排记录(posting).每个词项对应的整个表称为倒排索引表(posting list). 建立过程 对每篇文档建立索引时的输入为一个归一化的词条表,也可以看成二元组(词项,文档
2021-10-25 23:37:20 417KB java information-retrieval Java
1
c++倒排索引算法
2021-10-23 18:22:35 1.18MB c++ 索引
1
spimi算法实现的倒排索引的构建,并且对倒排索引进行了Gamma编码压缩,对词典进行了单一字符串压缩,分别写入了二进制的倒排索引文件和词典文件
2021-10-15 21:42:11 541KB spimi 倒排索引 gamma编码 单一字符串
1
C语言实现的倒排索引算法(含全部源码) C语言实现的倒排索引算法(含全部源码) C语言实现的倒排索引算法(含全部源码) C语言实现的倒排索引算法(含全部源码)
1