信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询(Information Search)。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储于检索。一般情况下,信息检索指的就是广义的信息检索。
2021-11-22 22:08:48 5.81MB 1QWEQ
1
RMDL:RMDL:用于分类的随机多模型深度学习
1
NLP项目 自然语言处理项目,其中包括有关以下方面的概念和脚本: gensim , fastText和tensorflow实现。 参见, doc2vec , word2vec averaging和Smooth Inverse Frequency实现 对话系统的类别和组成 tensorflow LSTM (请参阅 ,和 , ) fastText实现 ELMo,ULMFit,GPT,BERT,XLNet的原理 HMM Viterbi实现。 参见,中文解读 Named_Entity_Recognition 通过双向LSTM + CRF,张量tensorflow实现对NER品牌。 参见中文注释,中文解读 7_Information_retrieval 8_Information_extraction 9_Knowledge_graph 10_Text_generation 11
1
FinBERT-QA:使用 BERT 回答金融问题 FinBERT-QA 是一个问答系统,用于从数据集的任务 2 中检索有金融段落。 请参阅获取更多信息。 该系统使用来自信息检索和自然语言处理的技术,首先使用 Lucene 工具包检索每个查询的前 50 个候选答案,然后使用预训练的模型的变新排列候选答案。 FinBERT-QA 从 Huggingface 的库构建并应用 Transfer and Adapt [ ] 方法,首先将预训练的 BERT 模型转移并微调到一般 QA 任务,然后使用 FiQA 数据集将该模型适应金融领域。 转移步骤在的数据集上使用微调的 BERT 模型 ,它从 TensorFlow 转换为 PyTorch 模型。 在三个排名评估指标(nDCG、MRR、Precision)上结果平均提高了约 20%。 Overview of the QA pipeline:
1
红外搜索引擎 最少的搜索引擎在信息检索课程中的应用 描述 这是一个最小的搜索引擎应用程序项目。 有关更多详细信息,请检查project documents目录中的project documents 。 使用的技术 Java 1.8 Lucene 6.6 Maven的3.3.9 详细说明 主要成分: 搜索器:搜索器组件的主要任务是在提供索引文件路径和查询文件路径的情况下搜索索引,然后准备查询结果列表。 索引器:索引器组件的主要任务是索引给定路径中的文档并将结果写入给定目录。 分解器:此组件采用语料库文件的路径并将其分解为单独的文本文件,因此在给定路径中索引和检索并保存分解结果将更加容易。 NewTFIDF:这是一种新的tf-idf相似性评分策略,可计算术语的tf-idf度量。 如何定义新的TF-IDF评分策略: 为了定义新的td-idf相似性评分策略,我创建了一个名为BaseT
2021-11-04 16:40:31 623KB java search-engine information-retrieval lucene
1
基准短语提取基准数据集 该存储库包含大量精选的基准数据集,用于评估自动关键词提取算法。 这些数据集均使用Stanford CoreNLP套件进行了预处理,并以XML格式提供。 数据集格式 所有数据集均按照以下通用结构存储: dataset/ /test/ <- test documents /train/ <- training documents (if available) /dev/ <- validation documents (if available) /src/ <- e
1
Boolean Retrival(布尔检索) and Posting Lists(倒排索引表) 问题描述 利用文档和词项的布尔关系建立倒排索引表,根据倒排索引表进行布尔表达式查询.这里只实现AND操作. 布尔检索 布尔检索模型React了文档和词项集合的关系 布尔检索模型为一个关于词项-文档关联的二维矩阵,其中每一行表示一个词(term),每列表示一个文档(document).当词t在文档d中存在时,矩阵元素(t,d)的值为1,否则为0 倒排索引 每个词项都有一个记录出现该词项所有文档的列表,该表中的每个元素记录的时词项在某个文档中的一次出现信息(有时候还会包括词项在文档中出现的位置),这个表中的每个元素通常称为倒排记录(posting).每个词项对应的整个表称为倒排索引表(posting list). 建立过程 对每篇文档建立索引时的输入为一个归一化的词条表,也可以看成二元组(词项,文档
2021-10-25 23:37:20 417KB java information-retrieval Java
1
information retrieval 信息检索 答案
2021-10-18 06:15:11 1.4MB information retrieval 信息检索 答案
1
(by 王宁):老书,牛人。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。
2021-10-07 16:58:30 24.41MB 信息检索 搜索
1
信息检索高级教材,初、中级学习必备教材,内容涵盖广泛,包含众多经典的理论并包含相关伪代码
2021-09-16 00:55:25 6.97MB IR,信息检索
1