ChineseSimilarity-gensim-tfidf """ 基于gensim模块的中文句子相似度计算 思路如下: 1.文本预处理:中文分词,去除停用词 2.计算词频 3.创建字典(单词与编号之间的映射) 4.将待比较的文档转换为向量(词袋表示方法) 5.建立语料库 6.初始化模型 7.创建索引 8.相似度计算并返回相似度最大的文本 """ 可直接运行ChineseSimilartyCaculation.py stopwords.txt为中文停用词表
2021-11-29 20:54:31 10KB Python
1
DIY中文NLP算法包 这是一个DIY的中文NLP算法包,具体算法分析请参见https://blog.csdn.net/greepex/article/details/80493045 其中有关于短文本相似度以及情感极性分析的算法。 短文本相似度算法(distance.py) 基于分词后单词: edit_similar(str1,str2):编辑距离相似度,输入为分词后的两个句子的列表,返回值为两者相似度。 cos_sim(str1, str2):余弦相似度,输入为分词后的两个句子的列表,返回值为两者相似度。 基于字符: difflib.SequenceMatcher(None,str1,str2).ratio():difflib为python自带的库,str1和str2无需分词。 综合相似度: compare(str1, str2):输入是两个字符串(中文句子),无需分词,返回值为两者相
2021-11-23 18:20:44 985KB Python
1
KBQA-BERT 基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为在线和大纲模式 介绍 本项目主要由两个重要的点组成,一是基于BERT的命名实体识别,二是基于BERT的句子相似度计算,本项目将这两个模块进行融合,并基于BERT的KBQA问答系统,在命名实体识别上分为在线预测和轮廓预测;在句子相似度上,也分为在线预测和轮廓预测,2个模块互不干扰,做到了高内聚低掺杂的效果,最后的kbqa相当于融合这2个模块进行概述,具体介绍请见! ------------------------------------------- 2019/6/15更新- --------------------------------------- 把过去毕业生同学们遇到的主要问题汇总一下,下面是一些FAQ: 问:运行run_ner.py时未找到dev.txt,请问这个文件是怎么生成的呢? 答:这一部
2021-11-16 19:41:51 1.51MB 系统开源
1
SiameseLSTM-Keras 针对短语/句子/序列的相似性比较提出了一种评价模型——Siamese LSTM(孪生网络)。该模型是输入为句子对,输出为输入句子对的相似性得分,基于Keras实现。训练35轮左右模型达到拟合,测试集准确率87%
2021-09-29 08:54:00 19.85MB siameselstm Python
1
text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的前缀,然后计算两个句子词嵌入之间的余弦相似性。
2021-09-25 10:16:25 141KB nlp word2vec text-similarity similarity
1
伯特相似度 基于Google的BERT模型来进行语义相似度计算。代码基于tensorflow 1。 1.基本原理 简单来说就是将需要需要计算的相似性的两个句子先分解在一起,然后通过伯特模型获取获取整体的编码信息,然后通过全连接层将维,输出相似和不相似的概率。 1.1模型结构 模型结构所示如下: 1.1.1数据预处理 本文使用Bert模型计算相似度前,首先要对输入数据进行预处理,例如当要处理的文本是: 如何得知关闭借呗 想永久关闭借呗 首先进行文本按token化,切成分割的文字排列: [如 何 得 知 关 闭 借 呗] [想 永 久 关 闭 借 呗] 然后将两个切分后的句子,按照如下的方式
2021-08-24 18:33:00 2.82MB python nlp semantic tensorflow
1
paddle_nlp_之词或者句子相似度计算.zip
2021-08-04 15:05:29 7KB paddle_nlp_之词或者句
句子相似度数据,可用于评估词向量、句向量的优劣,句子成对出现,有人工的相似度打分
2020-01-03 11:34:38 400KB 句子相似度
1
基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式
2019-12-21 21:41:06 1.51MB Python开发-自然语言处理
1