主要技术:Python / jieba / TF-IDF / MultinomialNB / KMeans / editdistance / TopN 项目简介:通过分析不同机构发布的文章,判断是否有文章抄袭的情况,并找到原文和抄袭的文章,以及具体相似的句子。可以应用于毕业论文查重,IP作品及文本抄袭检测。 主要工作:对采集的文档进行数据清洗,采用TF-IDF提取文本特征,使用朴素贝叶斯分类器进行写作风格分类,并针对模仿自己写作风格的文章进行抄袭检测。先采用聚类算法对文档进行聚类降维,针对预测写作风格一致的作品,进行相似度检测及编辑距离检测。
2022-07-26 17:06:53 2.27MB 文本抄袭 python 机器学习 聚类分析
1
基于计算机数字指纹的文本抄袭检测算法研究.docx
2021-10-08 23:11:16 41KB C语言
基于数字水印的文本抄袭检测算法.docx
2021-07-25 13:00:07 180KB 网络安全
1