chatbot_simbert 检索类型的微信聊天机器人/问答系统,通过API异步通信,实现在微信上交互,可以查询天气、重复问句识别等情况;本项目包括模型和工程化部署一体化。用到SimBert等模型。 描述 各位可以根据自己的需求部署或修改: 问答库如果是任务型的,就是一个任务型聊天机器人,如果闲聊的问答库,那就是闲聊型聊天机器人; 后续也可以添加意图,用来用意图识别的匹配;也可以添加个知识图谱的API... 总之可以添加的模块很多,扩展性非常强大。 品尝方式(使用说明) 准备: 环境准备:安装requirement中的依赖包 下载模型,并放置在code/1.retrieve_match/3.simbert_match/config路径下: simbert模型: 启动: 1、 启动code/2.API_serve/KG_service.py 2、 启动code/3.wx_project/c
2024-04-07 10:07:55 1.23MB Python
1
1 TF-IDF TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。 一个用户问题与一个标准问题的TF-IDF相似度,是将用户问题中每一词与标准问题计算得到的TF-IDF值求和。计算公式如下: TF-IDF算法,计算较快,但是存在着缺点,由于它只考虑词频的因素,没有体现出词汇在文中上下文的地位,因此不能够很好的突出语义信息。 import numpy as np class TF_IDF_Model(object): def __init__(self, documents_list):
2023-04-12 21:05:33 131KB idf python python算法
1
基于JAVA开发的BM25排序模型,文件格式为xml。压缩包中含有示例文件xml。
2023-03-29 22:36:17 4.6MB 排序模型 BM25 JAVA 自然语言处理
1
介绍从TFIDF到BM25的优秀PPT
2022-06-23 16:04:29 1.04MB BM25 TFIDF
基于BM25算法的主题模型优化算法,李宇坤,陈光,本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可读性和独立性。不同于传统热点话题发现算法,本文��
2022-05-15 22:01:37 523KB 自然语言处理
1
2020年陈竹敏老师教授的信息检索技术的课设解决方案,语言为python,在提供的baseline基础上进行了一定的修改,包括文档预处理(停用词去除,大小写转换)等处理,MMR可达0.5。
2021-11-06 17:51:59 111.47MB 山东大学 信息检索 BM25 源码
1
mynlp:一个生产级,高性能,预定,可扩展的中文NLP工具包。(中文分词,平均感知机,fastText,拼音,新词发现,分词纠错,BM25,人名识别,命名实体,自定义词典)
2021-10-26 17:08:50 1.16MB nlp segment pinyin fasttext
1
SearchEngine用于TREC收集文档 该项目的目标是使用tf-idf和BM25的各种检索模型来实现一个简单的搜索引擎 该项目的目标是使用tf-idf,BM25等各种检索模型在python中为TREC文档构建一个简单的搜索引擎,并使用以下方法比较各种回归模型的性能: 读入文件tccorpus.txt中提供的标记化和词干化的文档集合。 这是ACM通信的早期标准摘要集。 tccorpus.txt中标记化文档集合的格式为:A#后跟文档ID文档ID行下方的行包含文档中的词干。 例如: # 1 this is a tokenzied line for document 1 this is also a line of document 1 # 2 from here lines for document 2 begin ... ... # 3 ... 构建一个简单的反向索引
2021-09-03 15:12:42 668KB Python
1
ir-python 用于信息检索任务的python实现,包括正向/反向索引,基本检索模型(例如BM25,uni-gram语言模型)。 索引模块对LevelDB( )使用线程安全的Python绑定。 LevelDB是快速键值存储库。 运行:sh buildIndex.sh tokenize语料库:buildIndex_tokenize.py输入:Robust2004语料库输出:〜/ Documents / ir / Robust2004 / result / tokenize / 从标记化语料库中提取文档信息:buildIndex_extract.py输入:标记化语料库输出:将单词转换为term_ids到文件/doc.extract格式:[doc_id \ t term_id \ t term_tf \ t position_in_doc] 按编号顺序对/doc.extract中
2021-09-03 15:11:40 85KB Python
1
bm25-排名-php 使用bm25排序算法对reuter的文档进行排序。 比较 479/6791
2021-09-02 01:13:13 11.3MB php scraper crawling bm25
1