本文在深入分析难过过搜索引擎基本原理、架构设计和核心技术的基础上,结合可扩展的scrapy框架、开源搜索引擎lucene的实现原理以及多种分词技术,设计并实现了一个可扩展可复用的小型搜索引擎文本预处理系统。
2021-05-09 09:44:10 711KB Scrapy、分词
1
java文本聚类程序代码文件,实现文本聚类功能,分词
2021-05-08 21:28:43 9KB JAVA 文本聚类 分词
1
包含两次报告,分词结果,分词代码(jupyter notebook)
2021-05-08 15:02:04 11.28MB SWJTU 搜索引擎 分词
1
解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;)Lorg/apache/lucene/analysis/TokenStream;原因IKAnalyzer中参考手册中的例子是使用的lucene3.4,与4.0已经是不兼容了。本资源包含了IKAnalyzer2012_FF_hf1.jar及源码
2021-05-08 14:12:57 5.4MB lucene分词
1
elasticsearch 64位 6.8.6版本的分词库,
2021-05-07 21:17:31 4.3MB elasticsearch 分词 ik 6.8.6
1
中文分词 本项目为中文分词任务baseline的代码实现,模型包括 BiLSTM-CRF 基于BERT的+ X(softmax / CRF / BiLSTM + CRF) 罗伯塔+ X(softmax / CRF / BiLSTM + CRF) 本项目是的项目。 数据集 数据集第二届中文分词任务中的北京大学数据集。 模型 本项目实现了中文分词任务的baseline模型,对应路径分别为: BiLSTM-CRF BERT-Softmax BERT-CRF BERT-LSTM-CRF 其中,根据使用的预训练模型的不同,BERT-base-X模型可转换为Roberta-X模型。 要求 此仓库已在Python 3.6+和PyTorch 1.5.1上进行了测试。 主要要求是: tqdm scikit学习 火炬> = 1.5.1 :hugging_face: 变压器== 2.2.2 要解决环境问题,请运行:
1
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
2021-05-07 18:29:24 34.58MB 分词 HanLP 聚类 提取关键词
1
本资源包括源代码,ppt,技术报告,能够实现中文的自动分词,词性标注。代码是java编写,用eclipse工具实现。是我们自然语言的课程设计。供大家之用
2021-05-06 09:42:45 7.34MB 中文 自动分词 词性标注 java
1
30万 中文分词词库.txt
2021-05-06 09:04:12 8.01MB 分词词库
1
中文分词、标注系统源代码,我用过挺好的跟大家分享一下
2021-05-05 19:48:23 9.64MB 分词 标注 中文 结巴分词
1