相似文档检测
Mission
data.csv中包含了一个新闻标题列表,试通过近似检测方法,通过Jaccard相似度,检测相似文章,将结果保存到csv文件中,不同文章间用空行隔开。
Work
思路:
两个词作为一段来计算,末尾不够截掉
Jaccard相关系数大于0.5则认为两个新闻标题相似
利用并查集将相似的合并在一起
Code
import pandas as pd
import nltk
import numpy as np
class Jaccard:
def __init__(self, _len): # _len 为步长值,语句切分的步长值
self._len
2022-02-26 19:30:27
39KB
ar
c
cc
1