中文文本相似度讨算是中文信息处理相关研究领域中的重要基础, 在信息检索、 知识挖掘、 舆情分析等领域中有着广泛应用。 目前的中文文本相似度计算方 法大多是从文本的字形层面而不是从文本内容语义理解上计算文本间的相似度,这样得到的相似度值往往与人们的主观理解不一致。 本文深入分析和研究了当前 基于语义的中文文本相似度计算方法, 并针对方法中存在的问题进行改进, 使计 算得到的相似度能够更为准确地反映中文文本间的话义相似性。
1
Python3 实现的文章余弦相似度计算
2022-01-08 16:08:17 6.32MB Python开发-其它杂项
1
余弦相似度计算matlab代码计算余弦相似度 张伯超 该脚本将从免疫数据库中读取数据并计算不同特征样本之间的余弦相似度。 用法 -d name of database -s name of subject -f field of the columns used to separate data -t size threshold, lower bound clone size, see methods below 例如 bash calCosSim.sh -d lp11 -s D207 -f tissue -t 20 将计算来自数据库 lp11 的受试者 D207 的组织样本之间的余弦相似度,仅使用在至少一个组织中具有至少 20 个实例的克隆 ** 注意:您将需要访问数据库的权限,在security.cnf 中替换您的用户名和密码。 ** 方法 实例 我们认为克隆大小是独特突变序列的数量和在不同测序文库中发现的相同独特序列的所有不同实例的总和。 我们将这种混合克隆大小度量称为“唯一序列实例”。 下限克隆大小 当我们说两个隔间重叠或缺少重叠时,重要的是要确保我们对整个场景有足够的覆盖范
2022-01-06 10:58:24 4KB 系统开源
1
文本相似度计算被信息检索,问答系统,窃检测等广泛使用。 目前,大多数研究只是针对同一种语言的文本相似度,而跨语言文本相似度计算的研究很少,语言之间的差异使得跨语言文本相似度的计算非常困难,针对这种情况,本文提出了一种解决方案。基于WordNet的中文-老挝语跨语言文本相似度计算方法。 首先对医学上的中文文本和老挝文本进行预处理和特征选择,然后使用语义词典WordNet将中文文本和老挝文本转换为中间层语言,最后计算中间层中文和老挝文本之间的相似度。
2022-01-06 03:30:34 581KB WordNet; middle layer language;
1
很前沿的技术,希望大家多多看看啊,我也对此有研究
2021-12-29 17:27:52 800KB 语义相似度计算
1
基于Hadoop的文本相似度计算的代码 是用TFIDF 和向量空间模型,IKAnlayze来弄的 有代码,只是用来参考的 只是一个算法的演示,用于保存,以后查看的
2021-12-29 16:06:19 2.02MB Hadoop 文本相似度 TFIDF 向量空间莫新
1
Java 基于知网的词汇相识度计算
2021-12-16 10:35:58 7KB Java 相识度计算
1
领域文本相似度计算方法研究.pdf
2021-12-14 12:01:49 12.88MB 资料
文本相似度计算的简单实例超详细代码解释(附代码,文件)-附件资源
2021-12-07 23:42:51 106B
1
根据图像直方图来比较两幅图像的相似性。 比如有图像A和图像B,分别计算两幅图像的直方图,HistA,HistB,然后计算两个直方图的归一化相关系数(巴氏距离,直方图相交距离)等等。
2021-12-06 12:39:35 295KB 图像相似度计算 图像