lucene6.6中适配的拼音分词jar包以及ik中文分词jar包,以及自定义的分词词组包和停词包,可以实现lucene建立索引时进行拼音和中文的分词。
2023-02-13 09:23:59 16.39MB lucene分词ik
1
记录超大容量辞海词典词库 可以自行导入数据库后用于分词 辞海词典。 Access数据库。 含380578条数据。 含各类词语解释、注音和例句。
2023-01-27 15:52:56 14.21MB 辞海词典 分词数据库
1
利用最短路径算法进行分词
2023-01-17 09:51:26 763KB 最短路径分词算法
1
中文分词: 自然语言理解和处理,是人工智能的重要的研究领域之一,是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。 分词作为搜索引擎的一项核心功能,和存储和查询有重大关系。但是不同的研究角度,不同的研究方向,带来研究重点和研究结果都是不一样的。 语言学方向研究的分词算法,看重分词的准确性,不看重运算速度;而搜索引擎的分次算法,特别看重分词速度,分词准确性中等。 (五)全文检索系统和搜索引擎关系: 1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技术最重要的一个运用. 2、搜索引擎在数据总量,最大并发处理能力,单次查询速度方面,都远远强大于全文检索系统. 3、搜索引擎为了最求最高的查询速度,在搜索结果准确性及搜索结果重现方面,都弱于全文检索系统.
2022-12-02 19:52:14 1.26MB 中文分词 Cache Server 爬虫
1
中文分词
2022-11-29 22:30:35 6.87MB 中文分词
1
中文分词词典。按照长度分成2/3/4/5四个文件,剔除稀有冷门的词,适合常规的项目开发使用。本人项目中就在使用。好用不贵!
2022-11-29 11:42:33 1.97MB 词典 字典
1
最新中文分词工具jar包,使用方便,分词准确,中文分析的一个不错的包
2022-11-26 17:57:58 21.35MB 中文分词
1
猎兔Lucene.NET中文分词源码seg_src.rar,权威代码,绝对优秀
2022-11-16 10:26:42 2.62MB lucene .net 中文分词 源码
1
1.注释非常详尽,几乎每个函数都有注释,在CUDA11与VS2019下实现,并行加速效果十分显著! 2.同时实现了CPU多线程并行计算和CUDA并行计算两个版本,可以通过宏来选择
2022-11-15 17:27:07 1.42MB 中文分词 C++ cuda 多线程
1
西电 Python大作业 中文分词 生成词云
2022-11-09 15:21:06 2.06MB 西电 python 中文分词 词云
1