1.基于.NetFramework4.7.2开发(可以直接项目右键自己降到4.5.2,编译无任何问题) 2.数据库使用SQlServer(脚本是2008R2的) 3.使用了较新的Lucene.net,目前是3.0版本 4.使用了最后一版盘古分词(2016年版本) 5.使用Winform+webBrowser实现(webBrowser负责显示结果) 使用方式: 1.新建数据库,然后在新建的数据库中执行附件根目录的sql脚本 2.修改app.config中的数据库连接和索引生成的目录 3.直接f5运行走起,点击“生成索引“” 4.最后在文本框输入关键词,点击搜索就看到运行结果了。
2021-01-28 03:08:38 3.45MB Lucene.net 盘古分词 垂直搜索 c#Lucene
1
在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
1
elasticsearch-7.4.24 + elasticsearch-analysis-ik-7.4.2
2021-01-28 01:13:51 279.69MB elasticsearch
1
基于内容的文本分类系统,使用libsvm 进行分类。
2020-12-30 15:13:41 40.58MB svm 文本分类 中文分词 libsvm
1
(完整版)来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组;由复旦大学李荣陆提供;test_corpus.rar为测试语料,train_corpus.rar为训练语料。
1
linux版本的elasticsearch-6.4.3-全套(elasticsearch安装包+源码+ik分词器+kibana)
2020-12-05 17:30:56 372.23MB elasticsearch
1
ik中文分词词库30万中文分词词库(含电商) ik中文分词词库30万中文分词词库(含电商)
2020-11-19 10:31:51 1.28MB 电商 ik中文分词 词库
1
在jdk为1.7当中,不支持elasticSearch2.4以上,这里的资源为elasticSearch2.3.5加上对应elasticSearch版本的ik分词器,和gson的jar包,可以处理json到实体类,map,list的转换。在项目中会使用到
2020-11-04 14:32:11 30.75MB 全文检索
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2020-05-18 23:41:14 70KB 词频计算
1
这是一个英文分词工具里面有详细的介绍使用方法
2020-03-07 03:11:39 3.06MB 英文分词工具
1