介绍文本向量化、tfidf、主题模型、word2vec,既会涉及理论,也会有详细的代码和案例进行讲解,希望在梳理自身知识体系的同时也能对想学习文本挖掘的朋友有一
2023-03-18 11:48:16 1.16MB 数据挖掘 sklearn keras word2vec
1
jaro-winkler-JS Jaro-Winkler距离算法在 Javascript 中的实现(参见 )。 这是 Winkler、McLaughlin、Jaro 和 Lynch 版本的直接翻译: ://web.archive.org/web/20100227020019/http: 。 我需要一个模糊字符串匹配问题的快速解决方案,但没有找到任何易于获取的 JS 实现——因此是这个。 我希望其他人觉得这很有用。 请注意,这是半小时左右的工作,因此其中可能存在错误(不过到目前为止对我来说效果很好)。 任何意见或指针是最受欢迎的! 这个 repo 的小涂鸦是 MIT 许可的,所以去吧。
2023-03-12 16:48:27 3KB JavaScript
1
比较图片相似度代码matlab 图像重定向质量评估 基于以下三篇论文的ARS和MLF图像重定向质量评估措施的 Matlab 实现。 用于图像重定向质量评估的纵横比相似性 (ARS)。 ICASSP 2016 用于图像重定向质量评估的基于后向注册的纵横比相似性。 提示 2016 用于重定向图像质量的基于多级特征的测量。 提示 2018 该代码已在 Windows 10 64 位操作系统上进行了测试。 要运行代码,您需要准备第一个。 是ARS措施的实施。 您可以运行以获取结果。 如果 mex 文件不兼容,请运行更新现有的 mex 文件。 在 Win 10(i7-6700 @3.4GHz 和 16GB 内存)上可能需要大约 1.2 小时。 在至强处理器上,可能会输出与论文中报道的相比略有不同的匹配结果并导致预测性能不一致。 在这种情况下,您可以使用计算结果来替换向后注册结果。 是MLF措施的实施。 您可以运行以获取结果。 MLF_code 依赖于 ARS_code,首先需要能够运行。 在 Win 10(i7-6700 @3.4GHz 和 16GB 内存)上可能需要大约 2.1 小时。
2023-03-07 16:09:38 48.78MB 系统开源
1
文本相似度计算作为中文信息处理中的一项基础性技术,被广泛应用到文本分类、文本聚类、信息检索等多个领域,长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中,很大一部分是短文本数据或短语数据,因此,在短文本数据信息的处理问题上,短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题,提出了一种新的中文短语相似度计算方法。在算法的设计过程中,本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素,提出了中文短语间相似度的计算公式,并给出了该算法的实现代码。
1
java相似度源码 请查看我们的 3.0 版详细说明。 在Apache Spark上运行 JedAI 的代码可用。 可以使用用于运行 JedAI 的Web 应用程序。 提供了解释如何使用它的视频。 JedAI 也可用作Docker 映像。 请参阅下面的更多细节。 最新版本的 JedAI-gui 可用。 Java 通用数据集成 (JedAI) 工具包 JedAI 是一个开源、高可扩展性的工具包,可为任何数据集成任务提供开箱即用的解决方案,例如记录链接、实体解析和链接发现。 其核心是一组适用于 RDF 和关系数据的、与领域无关的、最先进的技术。 这些技术依赖于基于(元)阻塞的近似的、模式不可知的功能,以实现高可扩展性。 JedAI 可以以三种不同的方式使用: 作为一个开源库,它为下图所示的端到端 ER 工作的所有步骤实现了许多最先进的方法。 作为一个直观的图形用户界面,专家和外行用户都可以使用。 作为比较不同(配置)ER 工作流的相对性能的工作台。 该存储库包含 JedAI 开源库的代码(在 Java 8 中)。 JedAI 的桌面应用程序和工作台的代码在这个 . 可以找到几个已经转换为
2023-03-01 14:27:14 68.19MB 系统开源
1
Strutil strutil提供了用于计算字符串相似度的字符串度量标准以及其他字符串实用程序功能。 完整文档可在以下找到: : 。 安装 go get github.com/adrg/strutil 字符串指标 杰罗·温克勒 史密斯·沃特曼·高图 索伦森-骰子 贾卡德 重叠系数 程序包定义了StringMetric接口,该接口由所有字符串指标实现。 该接口与“ Similarity功能一起使用,该功能使用提供的字符串度量标准来计算指定字符串之间的相似度。 type StringMetric interface { Compare ( a , b string ) float64 } func Similarity ( a , b string , metric StringMetric ) float64 { } 所有定义的字符串指标都可以在指标包中找到。 汉明
2023-03-01 10:47:53 24KB string smith-waterman levenshtein jaro-winkler
1
1.使用Eclispe开发,jdk1.6+ 2.项目编码方式设置为"GBK",请勿使用其他编码方式,以免出现乱码问题。 3.辞典文件放置在dict目录下,由"中文自然语言处理开放平台(http://www.nlp.org.cn)" 提供。 4.自然语言处理开放资源许可证 随代码一起发布。 5.算法参数使用《基于<知网>的词汇语义相似度计算》的实验参数,具体定义在类WordSimilarity中, 为私有静态常量,可根据需要自行修改。
2023-02-19 10:41:56 948KB HowNet
1
Extended-SimGNN-master源代码(SimGNN方法代码,精华版,可直接运行)
2023-02-14 15:16:57 770KB GNN GCN 图相似度计算 深度学习
1
句子相似度 仅内置库的句子相似度。 构建Docker映像 sh build.sh 在本地运行容器 sh run.sh 测试一些cURL请求 测试一些请求。 一个例子是req.ipynb
2023-02-07 10:07:47 5KB Python
1
句子相似度算法 1. 基于bm25的句子相似度算法 准确率很低 2. 基于hownet的句子相似度算法 在,准确率很低 3. 基于词向量余弦距离的句子相似度算法 基于gensim的n_similarity函数实现、自己实现 4. 基于word2vec+LSTM的句子相似度算法 准确率: 93% 5. mpcnn 别人实现的两个基于论文《Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks》的句子相似度算法
2023-02-07 10:03:40 73.23MB Python
1