SPTAG:用于快速近似最近邻居搜索的库SPTAG SPTAG(空间分区树和图)是Microsoft Resea发布的用于大规模矢量近似最近邻居搜索方案的库SPTAG:用于快速近似最近邻居搜索的库SPTAG SPTAG(空间划分)树和图)是由Microsoft Research(MSR)和Microsoft Bing发布的大规模矢量近似最近邻居搜索方案的库。 简介该库假定样本表示为向量,并且可以通过L2距离或余弦距离来比较向量。 返回查询向量的向量是具有最小L2距离或余弦的向量
2023-05-02 16:46:59 1.13MB C/C++ Miscellaneous
1
Inverted_index 使用map reduce优化搜索引擎的倒排索引构建
2022-05-10 14:04:42 7KB Java
1
财经新闻搜索引擎 从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。 评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分 (2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据 评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分 (3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值 评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要 评分标准:25分,有交互式UI(如网页)+10分 (5)优化和执行 评分标准:shuffle优化并做对比测试+10分;第(2)
2022-04-06 02:48:23 6.88MB 搜索引擎 spark 中文分词 大数据
代码索引构建针对主流的编程语言。。。。。。 1.怎么使用?? catgs --help 2.文件版本 v5.8 3.查看支持的编程语言 在window环境的cmd命令窗口执行 ctags --list-kinds 4.使用举栗: Java: ctags -R . 5.。。。。。。。
2021-12-08 17:03:17 137KB Ctags
1
基于lucene的Swing全文索引构建于查询工具及源程序,有源程序以及做好的工具,非常适合初学者学习学习lucene
2019-12-21 20:19:54 7.9MB lucene 全文检索 swing 索引构建
1