对四种句子/文本相似度计算方法进行实验与比较
2021-09-30 14:27:36 51.25MB Python开发-自然语言处理
1
SiameseLSTM-Keras 针对短语/句子/序列的相似性比较提出了一种评价模型——Siamese LSTM(孪生网络)。该模型是输入为句子对,输出为输入句子对的相似性得分,基于Keras实现。训练35轮左右模型达到拟合,测试集准确率87%
2021-09-29 08:54:00 19.85MB siameselstm Python
1
SIF:一种简单但是有效的词向量计算余弦相似度的方法,利用了tfidf等知识。
2021-09-26 11:23:32 318KB Word2vec nlp 语义相似度 tfidf
1
在NLP中孪生网络基本是用来计算句子间的语义相似度的。其结构如下在计算句子语义相似度的时候,都是以句子对的形式输入到网络中,孪生网络就是定义两个网络结构分别来表征句子对中的句子,然后通过曼哈顿距离,欧式距离,余弦相似度等来度量两个句子之间的空间相似度。孪生网络又可以分为孪生网络和伪孪生网络,这两者的定义:孪生网络:两个网络结构相同且共享参数,当两个句子来自统一领域且在结构上有很大的相似度时选择该模型;伪孪生网络:两个网络结构相同但不共享参数,或者两个网络结构不同,当两个句子结构上不同,或者来自不同的领域,或者时句子和图片之间的相似度计算时选择该模型;另外孪生网络的损失函数一般选择Contras
1
text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的前缀,然后计算两个句子词嵌入之间的余弦相似性。
2021-09-25 10:16:25 141KB nlp word2vec text-similarity similarity
1
文本相似度比较器 C# 可以使用 算法精确 简洁
2021-09-24 16:19:26 2.91MB 文本相似度 c#
1
基于C#的文本相似度检测源代码,附带算法解析和使用说明
2021-09-24 15:49:49 143KB C# 相似度 检测 源码
1
python的工具包,可用于自然语言处理领域,如文本相似度的计算,本人已测,速度相当的快
2021-09-24 13:13:37 75KB python 相似度 Levenshtein
1
计算相似度的matlab代码计算归一化的谷歌距离使用matlab 从这里获取代码: 从这里观看代码: 此代码使用matlab可以非常精确地计算“归一化的Google距离”。 标准化Google距离是一种语义相似性度量,它是由Google搜索引擎针对给定关键字集返回的命中数得出的。 在自然语言意义上具有相同或相似含义的关键字倾向于以“标准化Google距离”为单位“接近”,而具有不同含义的单词则往往相距较远。 应用程序用于机器学习项目,例如颜色与数字,素数与非素数,以及使用WordNet类别的随机大规模实验。 在素数与非素数的情况下以及WordNet实验中,使用支持向量机分类器增强了NGD方法。 实验由25个阳性实例和25个阴性实例组成。 WordNet实验由100个随机WordNet类别组成。 NGD方法的成功率为87.25%。 即平均值为0.8725,而标准偏差为0.1169。 这些费率与WordNet类别的一致性有关,WordNet类别代表进入其中的具有博士学位的研究人员的知识。 很少看到协议低于75%。 与我联系:电子邮件:我所有代码的列表: 直接在freelancer上雇用我:
2021-09-23 15:31:34 1KB 系统开源
1
利用编辑距离计算文档的相似度,先将word文档解压缩,然后进行对比计算文档的相似度
2021-09-23 11:28:29 7KB 论文查重
1