本章为该课程的其中一个章节 【全部课程列表】 01-C#基础(共40页) 02-搜索引擎基础(共15页) 03-网络爬虫(共27页) 04-正则表达式(共13页) 05-HtmlAgilityPack(共17页) 06-正文提取(共12页) 07-提取文件(共14页) 08-文本排重(共28页) 09-提取关键词(共16页) 10-拼写检查(共41页) 11-文本摘要(共15页) 12-文本分类(共12页) 13-文本聚类(共21页) 14-信息提取(共14页) 15-中文分词(共10页) 16-查词典(共37页) 17-逆向分词(共13页) 18-有限状态机(共31页) 19-切分词图(共16页) 20-概率分词(共26页) 21-n元分词(共38页) 22-词性标注(共34页) 23-Lucene简介(共23页) 24-索引原理(共22页) 25-查询原理(共13页) 26-分析器(共15页) 27-概念搜索(共13页) 28-相关度打分(共12页) 29-搜索界面(共12页) 30-AJAX搜索界面(共25页) 31-Solr(共29页) 32-SolrNet(共10页) 插图
2022-04-12 09:08:00 2.23MB c# 搜索引擎 中文分词 词性标注
简体中文论文查重系统 写在前面 本项目于在2017年完成了第一版并购使用,后经一年多的稳定运行和维护升级,于2018年开源。由于项目架构较老,目前本项目以维护为主进行常规更新和BUG修复,不再进行大的功能性更新。 相关SDK 目前团队开发了一套新的查重SDK(JAVA版)项目链接: ://dreamspark.com.cn/blog/?id 使用示例: : SDK相较于本项目更新频率更高也拥有一些更新更高级的特性。现有的多个商用查重系统和查重网站基于此SDK开发上线。欢迎大家试用,反馈,希望它能帮助大家开发另外,C ++,C#版在计划开发中。 安装使用教程 1,克隆源代码2,使用vs打开,编译(vs需安装.NET开发组件) 3,运行paper_checking.exe文件即可兼容性要求: Windows 7及以上版本,vs2017及以上版本,需安装vc2015运行库和.NET Framework4.6。其他版本需自行测试。报错排除: 1,如果运行时报pdfbox相关错误可将引用中的pdfbox-app.dll删除掉重新添加,然后尝试重新编译。 2,如果IKVM或Spire报错,可
1
文本除重是一款简单易用的TXT文本去重复软件。当你面对着乱码的文本,看得自己眼都花的情况,您就可以使用这款软件帮助到您。使用它在几秒钟的时间,即可把文本中的重复部分轻松去掉,节省了TXT文本处理的时间,提高了数据处理的效率。 使用说明: 1、解压缩运行软件 2、粘贴文本进窗口 3、点击“除重”即可
2021-10-26 11:49:08 174KB 应用软件
1
txt文本去重神器,可随身携带,上千万数据去重不到20秒.
2021-10-20 02:03:49 168KB txt 文本 去重
1
每行在promotion后面包含一些数字,如果这些数字是相同的,则认为是相同的行,对于相同的行,只保留一行。接下来通过本文给大家介绍Python做文本按行去重的实现方法,感兴趣的朋友一起看看吧
2021-10-14 15:48:32 42KB python 文本去重
1
查重算法SDK(JAVA版),可以用于开发高校论文查重、企业合同查重、企业内部文档查重、学生作业查重、文本去重、代码查重等。 本资源无需积分免费下载,里面是是SDK的详细文档链接。 链接:https://xincheck.com/?id=16
2021-10-11 10:07:31 278B 查重 文本查重 论文查重 查重系统
1
在linux系统下运行,用来评测文档的相似度
2021-07-02 15:56:42 11KB 网页查重 shingle
1
一个综合文本处理工具,包括文本去重,文本拆分,文本合并,文本信息抽取等
2021-06-12 22:46:17 521KB 数据文本去重 文本拆分
1
工作中常常需要处理大量的客户手机号、客户QQ号、邮箱还有一些大量的文本数据。 如果只是几下kb的数据量去重,处理起来是很容易也很快的,网上有很多小软件都可以去重。 思途高效文本去重工具最大的不同点是大量数据处理时的高效。如果数据多达几兆或者几十几百兆时,去重将是一个大难题了。 我们在自己工作中遇到要处理几十兆数据时,网上那些工作,处理一次就需
2021-05-10 02:28:56 10KB 文本去重 工具
1
利用Java中hashmap 实现对TXT文本按行去重,进行去重操作后内容顺序不改变。
2021-05-10 02:24:22 1KB map;txt
1