文字距离
TextDistance-用于通过多种算法比较两个或多个序列之间距离的python库。
特征:
30多种算法
纯python实现
使用简单
两个以上的序列比较
某些算法在一类中有多个实现。
可选的numpy用法,以实现最大速度。
演算法
基于编辑
算法
类
功能
Hamming
hamming
Mlipns
mlipns
Levenshtein
levenshtein
DamerauLevenshtein
damerau_levenshtein
JaroWinkler
jaro_winkler jaro
StrCmp95
strcmp95
NeedlemanWunsch
needleman_wunsch
Gotoh
gotoh
SmithWaterman
smith_waterman
基于令牌
算法
类
功能
Jaccard
jaccard
Sorensen
sorensen , sorensen_dice , dice
Tversky
tversky
Overlap
overlap
Tanimoto
tanimoto
Cosine
1