功能描述 基于siamese-lstm的中文句子相似度计算 环境搭建 Ubuntu:16.04(64bit) Anaconda:2-4.4.0(python 2.7) 历史版本下载: TensorFlow:1.5.1 numpy:1.14.3 gensim:3.4.0 (nltk:3.2.3) jieba:0.39 word2wec中文训练模型 参考链接: 代码使用 模型训练 # python train.py 模型评估 # python eval.py 论文参考 代码参考 版本:a61f07f6bef76665f8ba2df12f34b25380016613 AETC2018赛题描述 相关链接:
2022-03-31 17:55:17 33.67MB Python
1
text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的前缀,然后计算两个句子词嵌入之间的余弦相似性。
2021-09-25 10:16:25 141KB nlp word2vec text-similarity similarity
1
文本相似性Web应用程序 简单的Web应用程序可查找用户输入的两段文本之间的相似性 介绍: 这是一个简单的Flask Web应用程序,它接收2条文本并吐出2条文本之间的相似度百分比。该算法绝非完美。它需要更多的改进,但这是一个很好的起点。 注意事项: 标点符号将代替其原始符号。我使用了 ,其中包含许多标点符号及其扩展形式。我已将其作为json文件包含在内,因此以后任何人都可以进一步扩展。 重复的单词不会增加相似性。我将使用一组,因此重复的单词将不会计入。 我使用了一个名为“ Inflect”的库,该库将数字转换为口语单词(例如1-> 1,2-> 2等),因此涵盖了数字到文本的转换。 特殊字符将被忽略。 单词的顺序无关紧要。 算法: 实际算法是余弦相似度算法的副本。步骤如下: 从用户那里获得2个文本。 标记文本-将文本转换为单词列表。在这里,我们扩展标点符号,并用实际文本替换数字。 一旦标记
2021-03-18 17:09:04 2KB
1
一个计算文本相似度的工具 text similarity 搜索引擎中用的比较多 文本分析等
2019-12-21 21:31:41 37KB similarity analysis
1