用C语言编写的源代码. 实现了准确的中文分词.
2020-01-03 11:17:11 5KB 中文分词 分词
1
包含了中文停用词表、百度停用词表、哈工大停用词表和四川大学机器智能实验室停用词库及四个词库整合去重后的汇总停用词库
1
程序用java编写后向算法中文分词分词,并建立倒排索引表。然后在myeclipse下编写一个web形式的搜索测试页。
2019-12-28 17:56:36 2.7MB 倒排索引 搜索引擎 java 中文分词
1
使用keras实现的基于Bi-LSTM CRF的中文分词 词性标注
2019-12-28 17:44:56 113KB Python开发-自然语言处理
1
中文分词词库整理,Ik分词器词库,中文分词词库整理,Ik分词器词库
2019-12-21 22:26:32 7.12MB IKAnalizer ElasticSearc
1
非常权威的北京大学分词语料 可用于大规模的中文文本分词
2019-12-21 22:25:38 1.1MB 北京大学 分词 语料
1
lucene 中文分词小案例,实现中文检索,最近看到lucene顺便自己动手做了一下感觉挺实用的,案例很简单,很容易看懂
2019-12-21 22:22:58 21.15MB lucene java搜索引擎 中文分词
1
中文词表,可用于分词,共53143个词条
2019-12-21 22:22:32 641KB 中文词表
1
Lucene.Net只是一个全文检索开发包,不是一个成型的搜索引擎 它提供了类似SQLServer数据库正式版中的全文检索功能的索引库 你把数据扔给Lucene.Net,【Lucene.Net只针对文本信息建立索引,所以他只接收文本信息,如果不是文本信息,则要转换为文本信息】它会将文本内容分词后保存在索引库中,当用户输入关键字提交查询时,Lucene.Net从索引库中检索关键字数据,所以搜索速度非常快,适合于用户开发自己站内的搜索引擎 Q:分词 A:即将"不是所有痞子都叫一毛"文本内容通过分词算法 分割成为“不是” “所有” “痞子” “都” “叫” "一毛" 。 但是Lucene.Net内置分词算法对中文支持不是很好,以下会使用国内较为流行的分词算法 -- 盘古分词
2019-12-21 22:20:29 2.66MB lucene.net 盘古 分词
1
包括4款分词工具的最新词库: 1、IK分词:27万词 2、jieba分词:40万词 3、mmseg分词:15万词 4、word分词:64万词
2019-12-21 22:19:38 4.77MB 分词 中文 中文分词 word
1