jaro-winkler-JS Jaro-Winkler距离算法在 Javascript 中的实现(参见 )。 这是 Winkler、McLaughlin、Jaro 和 Lynch 版本的直接翻译: ://web.archive.org/web/20100227020019/http: 。 我需要一个模糊字符串匹配问题的快速解决方案,但没有找到任何易于获取的 JS 实现——因此是这个。 我希望其他人觉得这很有用。 请注意,这是半小时左右的工作,因此其中可能存在错误(不过到目前为止对我来说效果很好)。 任何意见或指针是最受欢迎的! 这个 repo 的小涂鸦是 MIT 许可的,所以去吧。
2023-03-12 16:48:27 3KB JavaScript
1
文本相似度计算作为中文信息处理中的一项基础性技术,被广泛应用到文本分类、文本聚类、信息检索等多个领域,长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中,很大一部分是短文本数据或短语数据,因此,在短文本数据信息的处理问题上,短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题,提出了一种新的中文短语相似度计算方法。在算法的设计过程中,本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素,提出了中文短语间相似度的计算公式,并给出了该算法的实现代码。
1
java相似度源码 请查看我们的 3.0 版详细说明。 在Apache Spark上运行 JedAI 的代码可用。 可以使用用于运行 JedAI 的Web 应用程序。 提供了解释如何使用它的视频。 JedAI 也可用作Docker 映像。 请参阅下面的更多细节。 最新版本的 JedAI-gui 可用。 Java 通用数据集成 (JedAI) 工具包 JedAI 是一个开源、高可扩展性的工具包,可为任何数据集成任务提供开箱即用的解决方案,例如记录链接、实体解析和链接发现。 其核心是一组适用于 RDF 和关系数据的、与领域无关的、最先进的技术。 这些技术依赖于基于(元)阻塞的近似的、模式不可知的功能,以实现高可扩展性。 JedAI 可以以三种不同的方式使用: 作为一个开源库,它为下图所示的端到端 ER 工作的所有步骤实现了许多最先进的方法。 作为一个直观的图形用户界面,专家和外行用户都可以使用。 作为比较不同(配置)ER 工作流的相对性能的工作台。 该存储库包含 JedAI 开源库的代码(在 Java 8 中)。 JedAI 的桌面应用程序和工作台的代码在这个 . 可以找到几个已经转换为
2023-03-01 14:27:14 68.19MB 系统开源
1
句子相似度算法 1. 基于bm25的句子相似度算法 准确率很低 2. 基于hownet的句子相似度算法 在,准确率很低 3. 基于词向量余弦距离的句子相似度算法 基于gensim的n_similarity函数实现、自己实现 4. 基于word2vec+LSTM的句子相似度算法 准确率: 93% 5. mpcnn 别人实现的两个基于论文《Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks》的句子相似度算法
2023-02-07 10:03:40 73.23MB Python
1
NULL 博文链接:https://biansutao.iteye.com/blog/326008
2022-11-13 16:08:00 603B 源码 工具
1
java相似度源码 化学开发套件 (CDK) 版权所有 :copyright: 1997-2020 CDK 开发团队 许可证:LGPL v2,参见 LICENSE.txt | | | | 介绍 CDK 是一个用于化学信息学和生物信息学的开源 Java 库。 主要特征: 分子和React价键表示。 读写文件格式:SMILES、SDF、InChI、Mol2、CML 等。 高效的分子处理算法:寻环、Kekulisation、芳香性。 坐标生成和渲染。 用于快速精确搜索的规范标识符。 子结构和智能模式搜索。 ECFP、Daylight、MACCS 和其他用于相似性搜索的指纹方法。 QSAR 描述符计算 安装 CDK 是一个旨在供其他程序使用的类库,它不会作为独立程序运行。 该库使用 Apache Maven 构建,目前需要 Java 1.7 或更高版本。 从项目的根运行以构建每个模块的 JAR 文件。 bundle/target/目录包含包含所有依赖项的主 JAR: $ mvn install 您还可以从 下载预先构建的库 JAR。 编译和运行代码时,在 Java 类路径中包含主 JAR: $ javac -cp
2022-09-17 15:02:36 28.42MB 系统开源
1
介绍一下原理:RGB图像通过公式转化为灰度图像,完成图像的灰度化,建立灰度直方图,通过两幅图像的灰度直方图,以4个灰度值为一组,建立64组数据,因为灰度直方图的定义域就是0~255,所以总共有256组数据,将所得的64组数据中的每4个数据,通过加权求和,得到64个数值,这些数值便是图像的“指纹”,将两组图像的指纹映射到64维空间,得到两组64维空间向量,通过空间夹角余弦公式得到两组图像的余弦值,将余弦值加一后除二,得到的小数乘100便是相似度。 这个程序的具体实现呢,大致分为三部分:1、将图像灰度化;2、将灰度化的图像建立直方图;3、将直方图映射到多维空间得到向量后计算夹角余弦值。
2022-07-02 19:15:41 4KB 图形图像源码
1
本文提出了结合主题和各主题下关键特征的文本相似度算法,目的在于更准确的挖掘被描述对象的近邻对象集。本文首先介绍卡方统检验特征统计法,并利用改进的卡方检验,计算训练集中已知主题的文本的特征;而后介绍了最小编辑距离算法、余弦相似度算法和杰卡德相似系数,在论证了主题对文本相似度的重要性后,又针对难提取主题的文本加以改进,最终提出了基于主题和特征的文本相似度算法;然后对各个算法在测试集上的相似度计算结果进行分析,证明本文提出的算法在速度和精确度上明显优于其他算法;最后将该算法应用于股票的概念股题材标注上,分析结果
2022-05-28 10:41:26 1MB 工程技术 论文
1
ls(W1,W2)是(W1,W2)的最近共有祖先。P(W)是单词W在特定本体库中出现的概率
2022-05-12 16:09:01 64KB 1
1
多种字符串相似度算法的比较研究.doc
2022-05-11 09:08:06 499KB 算法 文档资料