文本相似度计算作为中文信息处理中的一项基础性技术,被广泛应用到文本分类、文本聚类、信息检索等多个领域,长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中,很大一部分是短文本数据或短语数据,因此,在短文本数据信息的处理问题上,短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题,提出了一种新的中文短语相似度计算方法。在算法的设计过程中,本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素,提出了中文短语间相似度的计算公式,并给出了该算法的实现代码。
1
1.欧氏距离 2.曼哈顿距离 3.切比雪夫距离 4.闵可夫斯基距离 5.标准化欧氏距离 6.马氏距离 7.夹角余弦 8.汉明距离 9.杰卡德距离&杰卡德相似系数
2023-03-05 18:06:03 58KB 机器学习
1
This is MATLAB code of "Matching local self-similarities across images and videos"
2023-03-05 17:40:07 1.08MB 自相似性描述子 图像检索 匹配
1
SimMetrics 相似度和距离量度的Java库,例如Levenshtein距离和余弦相似度。 所有相似性指标均返回归一化值,而不是无限制的相似性分数。 距离指标返回非负无界分数。 用法 为了方便快捷地使用, 和包含一组众所周知的相似性和距离度量。 String str1 = " This is a sentence. It is made of words " ; String str2 = " This sentence is similar. It has almost the same words " ; StringMetric metric = StringMetrics . cosineSimilarity(); float result = metric . compare(str1, str2); // 0.4767 和是用于构建字符串相似度和距离度量的便捷工具。
2023-03-03 17:21:18 250KB Java
1
SimMetrics.Net SimMetrics是一个相似性度量库,例如,从编辑距离(Levenstein等)到其他度量(Chapman等)。 地位 AppVeyor Travis codecov.io coveralls.io NuGet 支持的框架是: .NET 2.0 .NET 3.5 .NET 4.0 .NET 4.5及更高版本 .NET Standard 1.0到.NETStandard 1.6(包括便携式,Windows Phone和uap) .NET标准2.0 基于以及原始项目中的所有87个单元测试。
2023-03-03 17:20:22 6.73MB algorithms string string-metrics distance-metric
1
语义文本相似度 Anant Maheshwari Simeng Sun Danni Ma Yezheng Li 抽象的 语义文本相似度(STS)衡量句子的含义相似度。 该任务的应用包括机器翻译,摘要,文本生成,问题解答,简短答案分级,语义搜索,对话和会话系统。 我们开发了具有多种功能的支持向量回归模型,包括使用基于比对的方法和基于语义组合的方法计算的相似度得分。 我们还使用BiLSTM和卷积神经网络(CNN)训练了句子的语义表示。 在测试数据集中,我们系统输出的人类评级之间的相关性高于0.8。 介绍 此任务的目的是测量给定句子对之间的语义文本相似性(它们的含义,而不是它们在语法上是否看起来相似)。 尽管进行这样的评估对人类来说是微不足道的,但是构建模仿人类水平性能的算法和计算模型却代表了一个困难而深刻的自然语言理解(NLU)问题。 范例1: 中文:小鸟在水盆里洗自己。 英文释义:这只鸟
2023-03-03 16:24:05 2.28MB Python
1
java相似度源码 请查看我们的 3.0 版详细说明。 在Apache Spark上运行 JedAI 的代码可用。 可以使用用于运行 JedAI 的Web 应用程序。 提供了解释如何使用它的视频。 JedAI 也可用作Docker 映像。 请参阅下面的更多细节。 最新版本的 JedAI-gui 可用。 Java 通用数据集成 (JedAI) 工具包 JedAI 是一个开源、高可扩展性的工具包,可为任何数据集成任务提供开箱即用的解决方案,例如记录链接、实体解析和链接发现。 其核心是一组适用于 RDF 和关系数据的、与领域无关的、最先进的技术。 这些技术依赖于基于(元)阻塞的近似的、模式不可知的功能,以实现高可扩展性。 JedAI 可以以三种不同的方式使用: 作为一个开源库,它为下图所示的端到端 ER 工作的所有步骤实现了许多最先进的方法。 作为一个直观的图形用户界面,专家和外行用户都可以使用。 作为比较不同(配置)ER 工作流的相对性能的工作台。 该存储库包含 JedAI 开源库的代码(在 Java 8 中)。 JedAI 的桌面应用程序和工作台的代码在这个 . 可以找到几个已经转换为
2023-03-01 14:27:14 68.19MB 系统开源
1
Strutil strutil提供了用于计算字符串相似度的字符串度量标准以及其他字符串实用程序功能。 完整文档可在以下找到: : 。 安装 go get github.com/adrg/strutil 字符串指标 杰罗·温克勒 史密斯·沃特曼·高图 索伦森-骰子 贾卡德 重叠系数 程序包定义了StringMetric接口,该接口由所有字符串指标实现。 该接口与“ Similarity功能一起使用,该功能使用提供的字符串度量标准来计算指定字符串之间的相似度。 type StringMetric interface { Compare ( a , b string ) float64 } func Similarity ( a , b string , metric StringMetric ) float64 { } 所有定义的字符串指标都可以在指标包中找到。 汉明
2023-03-01 10:47:53 24KB string smith-waterman levenshtein jaro-winkler
1
python 实施八个评估指标来访问两个图像之间的相似性。这八个指标如下:RMSE、PSNR、SSIM、ISSM、FSIM、SRE、SAM 和 UIQ。 图像相似度测量 实施八个评估指标来访问两个图像之间的相似性。八项指标如下: 均方根误差 (RMSE) , 峰值信噪比 (PSNR) , 结构相似性指数(SSIM), 基于特征的相似度指数(FSIM), 基于信息论的统计相似性度量(ISSM), 信号重构误差比 (SRE) , 光谱角映射器 (SAM)和 通用图像质量指数 (UIQ) 指示 以下分步说明将指导您安装此软件包并使用命令行工具运行评估。 注意:支持的 python 版本为 3.6、3.7、3.8 和 3.9。 安装包 pip install image-similarity-measures 为了更快地评估 FSIM 指标,pyfftw需要该软件包。您可以单独安装它,也可以通过speedups额外的: 更多详情、使用方法,请下载后阅读README.md文件
2023-02-23 15:15:37 575KB python
经过公司CTO的帮助,完成了基于Java语言实现的,相似图像识别,基于直方图比较算法,经过测算此算法优于基于图像指纹的哈希算法.千金难买好代码.
2023-02-23 09:21:24 4KB java 识别图片
1