indexingMod 该软件包使用SPIMI算法实现了信息检索系统的索引组件。 作者:Bilal Ansari @ Ye Thi Ha ==========说明============= 此python程序(indexingMod)使用SPIMI算法实现信息检索系统的索引组件。 输入索引程序: 包含文本文件的数据集目录的路径。 (例如“ C:\ Dataset”) SPMI算法的块大小。 (例如50000) 索引程序的输出: 包含反向索引的文本文件,即“ out_SPIMI_Output.txt”。该文件与输入数据集输出在同一目录中。 ==========环境设置============= 从GitHub下载此索引包(indexingMod)(作为zip文件轻松下载)。将其保存并解压缩到计算机的首选目录中(例如“ C:\ Test \ indexingMod”)。注意:数据包中的示
2022-02-07 22:10:19 10.69MB Python
1
spimi算法实现的倒排索引的构建,并且对倒排索引进行了Gamma编码压缩,对词典进行了单一字符串压缩,分别写入了二进制的倒排索引文件和词典文件
2021-10-15 21:42:11 541KB spimi 倒排索引 gamma编码 单一字符串
1