基于分词的中文文本相似度计算研究
2021-05-18 22:19:41 377B 中文相似度 分词
1
包含20几个行业的文本语料,可用于文本分析,如文本相似度计算,文本挖掘,情感分析、关键词云图的构建等
2021-05-08 10:05:16 69.21MB 文本分析 关键词云图 文本相似度计算
1
基于依存句法分析的中文文本相似度计算研究,赵白玉,彭黎,中文文本相似度的计算在中文信息处理中起着极为重要的作用,在很多领域都有着广泛的应用前景。本文在改进了基于语义依存的汉语句
2021-05-03 20:22:04 213KB 中文信息处理
1
MSR数据集,是微软公开的相似度计算数据集,其中训练集有4076个句子,其中包含2753个相似度为1,即为正例句子;测试集有1725个句子,其中包含1147个正例句子。
2021-04-26 17:12:27 485KB MSR数据集 文本相似度计算
1
基于深度学习的文本相似度计算模型和代码,亲自跑过可以直接使用,对nlp领域的学习非常有借鉴意义,在智能问答系统上经常会用到。
2021-04-24 15:53:00 15.43MB 文本相似度 深度学习 智能问答
1
python自然语言处理-学习笔记(三)之文本相似度计算-附件资源
2021-04-22 22:27:52 106B
1
文本相似度计算的Simhash算法的实现与改进
2021-04-18 17:01:32 761KB Simhash
1
python自然语言处理-学习笔记(三)之文本相似度计算-附件资源
2021-03-02 16:02:55 23B
1
跨语言文本相似度计算是挖掘蒙汉可比语料的基础和关键,其结果直接影响了可比语料的质量。本文通过分析新闻文本特点,提出了一种融合多特征的跨语言新闻文本相似度计算方法。该方法首先抽取新闻的发布日期、标题及正文信息作为特征,再利用双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度及正文重合程度五种启发信息进行加权线性组合来判断相似程度。实验表明,本文提出的方法能明显提高蒙汉新闻文本相似度计算的准确率。
2021-03-02 12:05:12 661KB 跨语言;新闻文本;文本相似度
1
本文基于Google开源的BERT代码进行了进一步的简化,方便生成句向量与做文本分类
2019-12-21 21:40:14 2.96MB Python开发-自然语言处理
1