NULL 博文链接:https://biansutao.iteye.com/blog/326008
2022-11-13 16:08:00 603B 源码 工具
1
句子相似度簇 sensim_cluster使用Levenshtein距离计算文本数据(来自文件)的相似度,并对结果进行聚类(分层聚类)。 聚类结果以树状图显示。 用法 准备数据文件 在下面运行该程序 # -*- coding: utf-8 -*- import sys from sensim_cluster . sensim_cluster import SensimCluster from matplotlib import pyplot as plt from scipy . cluster . hierarchy import dendrogram cluster = SensimCluster ( 'YOUR_DATAFILE_PATH' ) ids = cluster . get_ids () result = cluster . ward () mod_ids = [ id [
1
pybktree:Python BK树数据结构,允许快速查询“接近”匹配
1
FastFuzzyStringMatcher FastFuzzyStringMatcher是用于快速内存中字符串匹配的BK树实现。 (也可用于 )。 特征 快速,模糊,字符串匹配。 根据百分比进行搜索并编辑距离。 将数据与字符串关键字相关联,并同时返回两者。 例如,搜索文件名,然后返回关联的文件路径。 动机 尽管哈希映射可用于精确的字符串匹配,而尝试可用于前缀匹配,但目前很少有基于编辑距离或百分比差异的快速匹配解决方案。 当然,您可以搜索集合中的每个字符串,将其编辑距离与要搜索的关键字进行比较,但这往往效率很低。 FastFuzzyStringMatcher构建以使搜索效率更高。 设置 该项目最初是使用Eclipse和Java 8构建的,并且假设您已安装了最新的JDK,则应该干净地构建。 主类可以在src/main/java com.gitub.pekoto.fastfuzzys
1
用于快速计算两个字符串之间的 Levenshtein 距离的 C++ mex 代码。 您需要使用“mex -setup”和“men LevenDistance.cpp”编译它。 这是基于损坏的源代码: http://hi.baidu.com/mhyuycwnspbqswe/item/936632f359a5a9b631c199d8
2021-06-01 12:02:46 3KB matlab
1