python自然语言处理-学习笔记(三)之文本相似度计算-附件资源
2021-03-02 16:02:55 23B
1
跨语言文本相似度计算是挖掘蒙汉可比语料的基础和关键,其结果直接影响了可比语料的质量。本文通过分析新闻文本特点,提出了一种融合多特征的跨语言新闻文本相似度计算方法。该方法首先抽取新闻的发布日期、标题及正文信息作为特征,再利用双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度及正文重合程度五种启发信息进行加权线性组合来判断相似程度。实验表明,本文提出的方法能明显提高蒙汉新闻文本相似度计算的准确率。
2021-03-02 12:05:12 661KB 跨语言;新闻文本;文本相似度
1
在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
1
python爬虫,以及相似度分析,可以分析两个文本字符串的相似度
2019-12-21 22:22:18 29KB python 爬虫 相似度分析
1
本文基于Google开源的BERT代码进行了进一步的简化,方便生成句向量与做文本分类
2019-12-21 21:40:14 2.96MB Python开发-自然语言处理
1
这是一个基于C#的反作弊系统,基于VSM空间向量模型,能对doc和txt文件进行相似度的检测,在VS2005和SQL Server 2005上实现
2019-12-21 21:00:05 127KB C# 文档那个相似度检测
1
gensim包的tfidf方法计算中文文本相似度,代码可直接运行,包含中文停用词,方便。
2019-12-21 20:39:02 52KB gensim tfidf 中文相似度
1
本系统是信息检索课程的一个关于文本相似度对比的程序,它是用Java设计的,你也可以直接点击里面的jar文件进行运行,本程序还可以用来防止同学进行文档作弊的作业,资源里面有还有它的使用方法。
1
从文件中读出文本 比较相似度 以链表的形式存储 统计相同单词数 相同单词出现的次数 相同单词后面跟着的4个词中的相同单词个数……加权算出相似度
2019-12-21 20:13:05 259KB C++ 英文文本 相似度
1
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
2019-12-21 20:02:37 9KB kmeans 中文 文本聚类 tf
1