句子相似度簇
sensim_cluster使用Levenshtein距离计算文本数据(来自文件)的相似度,并对结果进行聚类(分层聚类)。 聚类结果以树状图显示。
用法
准备数据文件
在下面运行该程序
# -*- coding: utf-8 -*-
import sys
from sensim_cluster . sensim_cluster import SensimCluster
from matplotlib import pyplot as plt
from scipy . cluster . hierarchy import dendrogram
cluster = SensimCluster ( 'YOUR_DATAFILE_PATH' )
ids = cluster . get_ids ()
result = cluster . ward ()
mod_ids = [ id [
1