Java字符串相似度 一个实现不同字符串相似度和距离度量的库。 当前实现了十二种算法(包括Levenshtein编辑距离和同级,Jaro-Winkler,最长公共子序列,余弦相似性等)。 查看下面的摘要表以获取完整列表... 下载 使用Maven: info.debatty java-string-similarity RELEASE 或检查。 该库需要Java 8或更高版本。 总览 下面介绍了每种已实现算法的主要特征。 “成本”列给出了计算成本的估算值,以分别计算长度为m和n的两个字符串之间的相似度。 归一化? 公制? 类型 成本 典型用法 距离 没有 是 O(米* n) 1 距离相似 是 没有 O(米* n) 1 距离 没有 没有 O(米* n) 1 光学字符识别 3 距离 没有 是 O(米* n) 1 3 距离 没有 没有 O(米* n) 1 相似距离 是
2021-08-18 10:31:38 462KB java algorithm distance jaro-winkler
1
正交化的思想很简单,就是把需要处理的向量在其他已经处理过的向量方向上的投影去掉,然后归一化。
2021-07-01 10:17:48 387B 正交,matlab
1
6、FSMC-液晶GRAM扫描方向.zip
2021-05-21 12:01:09 493KB 6、FSMC-液晶GRAM扫描方
单词纠错技术,计算单词距离方法,基于多重索引模型的词典 近似匹配算法
2021-05-12 20:51:47 201KB N-gram 编辑距离 单词距离 单词纠错
1
Gram-Schmidt正交化方法的具体定义及理论方法推论等
2021-05-03 15:09:22 360KB Gram-Schmidt 正交化方法
1
N-gram语言模型 简单的N-gram语言模型
2021-04-12 16:42:13 428KB JupyterNotebook
1
word2vec Skip-Gram模型的简单实现 包括预料库 从维基百科提取出来的 。代码是python3的,可以直接运行。
2021-04-09 20:33:15 31.65MB Skip-Gram word2vec 自然语言处理 NLP
1
用python动手简易复现了下word2vec中的skip-gram方法,并将嵌入的特征向量与TF-IDF特征和gensim提供的word2vec方法进行了简易对比。 具体内容可参考个人博客。
2021-04-06 16:51:40 35.69MB 算法 word2vec
1
【转发】【引用】【论文】随着计算机技术的发展和普及,计算机病毒带来的危害日趋严重。传统 N-Gram 算法难以提取不同长度的特征,导致有效特征缺失,并产生庞大的特征集合,造成空间的浪费。针对这些问题,提出一种改进的基于 N-Gram 的特征码自动提取方法。该方法在原有 N-Gram 特征才是取算法的基础上引入变长 N-Gram 特征,才是取不同长度的有效特征,生成不定长病毒特征码。综合考虑特征频率的相关性,利用特征浓度对 N-Gram 特征进行有向筛选,生成数据字典,节省存储空间。实验结果表明,与羊纯使用定长 N-Gram 的算法相比,该方法能有效降低特征码自动提取的误报率。
2021-03-24 12:00:11 692KB 机器学习 恶意软件 特征算法 N-Gram
1
基于n-gram卷积神经网络的MoRF预测
2021-03-02 15:03:58 331KB 研究论文
1