用余弦相似度算法写的c++程序,计算如“我 爱 看 电视”和“我 不 爱 看 电影”之间的余弦相似度。由于没有分词程序,所以需要用空格手动分词
2023-04-05 21:32:36 7.46MB C++ 余弦相似度
1
为提供个性化学习空间,优化在线学习效果,文章介绍了一种基于领域本体和语义相似度的个性化学习路径推荐策略。首先对根据领域知识点及其关系构建本体库,建立其知识点间语义层面的关系,并用Protégé进行了本体形式化编码;然后基于本体,设计了学习路径生成策略和相关知识协同策略;最后,结合决策支持系统课程现有网络资源设计并开发了原型系统,实现了个性化学习引导及资源空间的优化。
1
文本相似度根据笔画计算词集
2023-03-28 20:02:30 9.84MB 综合资源
1
首先,建立自己的语料库 def ylk(x): seg = jieba.cut(x, cut_all=False) with open('D://listTwo.txt', 'a',encoding='utf-8')as f: for word in seg: f.write(word+ ) f.write('\n') 训练模型 from gensim.models.word2vec import LineSentence, Word2Vec #加载语料库 sentences = LineSentence(D://
2023-03-28 10:06:53 33KB c ec OR
1
随着网络的飞速发展,微博逐渐成为社交网络中信息传播及信息收集的重要平台,微博转发是微博信息传播的重要途径,研究微博转发问题对微博信息传播、微博营销、舆情监控有着极其重要的意义.影响微博转发的主要因素有:粉丝兴趣与微博文本的相似度,微博营销策略及用户粉丝数量的变化.以往的预测模型没有综合考虑这两方面因素,基于此,提出了一种基于循环神经网络的方法来对微博转发量级进行预测,首先利用SIM-LSTM模型构建微博转发趋势度,然后再利用TF-IDF构建粉丝兴趣和微博文本的相似度,最后通过神经网络模型来预测粉丝是否会转发该微博.实验结果表明本文提出的算法相对于其他预测算法F1评估值提高了近5%.
1
介绍文本向量化、tfidf、主题模型、word2vec,既会涉及理论,也会有详细的代码和案例进行讲解,希望在梳理自身知识体系的同时也能对想学习文本挖掘的朋友有一
2023-03-18 11:48:16 1.16MB 数据挖掘 sklearn keras word2vec
1
jaro-winkler-JS Jaro-Winkler距离算法在 Javascript 中的实现(参见 )。 这是 Winkler、McLaughlin、Jaro 和 Lynch 版本的直接翻译: ://web.archive.org/web/20100227020019/http: 。 我需要一个模糊字符串匹配问题的快速解决方案,但没有找到任何易于获取的 JS 实现——因此是这个。 我希望其他人觉得这很有用。 请注意,这是半小时左右的工作,因此其中可能存在错误(不过到目前为止对我来说效果很好)。 任何意见或指针是最受欢迎的! 这个 repo 的小涂鸦是 MIT 许可的,所以去吧。
2023-03-12 16:48:27 3KB JavaScript
1
比较图片相似度代码matlab 图像重定向质量评估 基于以下三篇论文的ARS和MLF图像重定向质量评估措施的 Matlab 实现。 用于图像重定向质量评估的纵横比相似性 (ARS)。 ICASSP 2016 用于图像重定向质量评估的基于后向注册的纵横比相似性。 提示 2016 用于重定向图像质量的基于多级特征的测量。 提示 2018 该代码已在 Windows 10 64 位操作系统上进行了测试。 要运行代码,您需要准备第一个。 是ARS措施的实施。 您可以运行以获取结果。 如果 mex 文件不兼容,请运行更新现有的 mex 文件。 在 Win 10(i7-6700 @3.4GHz 和 16GB 内存)上可能需要大约 1.2 小时。 在至强处理器上,可能会输出与论文中报道的相比略有不同的匹配结果并导致预测性能不一致。 在这种情况下,您可以使用计算结果来替换向后注册结果。 是MLF措施的实施。 您可以运行以获取结果。 MLF_code 依赖于 ARS_code,首先需要能够运行。 在 Win 10(i7-6700 @3.4GHz 和 16GB 内存)上可能需要大约 2.1 小时。
2023-03-07 16:09:38 48.78MB 系统开源
1
文本相似度计算作为中文信息处理中的一项基础性技术,被广泛应用到文本分类、文本聚类、信息检索等多个领域,长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中,很大一部分是短文本数据或短语数据,因此,在短文本数据信息的处理问题上,短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题,提出了一种新的中文短语相似度计算方法。在算法的设计过程中,本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素,提出了中文短语间相似度的计算公式,并给出了该算法的实现代码。
1
java相似度源码 请查看我们的 3.0 版详细说明。 在Apache Spark上运行 JedAI 的代码可用。 可以使用用于运行 JedAI 的Web 应用程序。 提供了解释如何使用它的视频。 JedAI 也可用作Docker 映像。 请参阅下面的更多细节。 最新版本的 JedAI-gui 可用。 Java 通用数据集成 (JedAI) 工具包 JedAI 是一个开源、高可扩展性的工具包,可为任何数据集成任务提供开箱即用的解决方案,例如记录链接、实体解析和链接发现。 其核心是一组适用于 RDF 和关系数据的、与领域无关的、最先进的技术。 这些技术依赖于基于(元)阻塞的近似的、模式不可知的功能,以实现高可扩展性。 JedAI 可以以三种不同的方式使用: 作为一个开源库,它为下图所示的端到端 ER 工作的所有步骤实现了许多最先进的方法。 作为一个直观的图形用户界面,专家和外行用户都可以使用。 作为比较不同(配置)ER 工作流的相对性能的工作台。 该存储库包含 JedAI 开源库的代码(在 Java 8 中)。 JedAI 的桌面应用程序和工作台的代码在这个 . 可以找到几个已经转换为
2023-03-01 14:27:14 68.19MB 系统开源
1