NULL 博文链接:https://llying.iteye.com/blog/570208
2022-05-07 10:33:00 2.46MB 源码 工具
1
SEO搜索中文分词算法原理实战教程.doc
基于互信息改进算法的新词发现对中文分词系统改进
2022-05-02 14:06:31 16KB 文档资料
中⽂分词技术有三种组成:基于规则的、基于统计的、混合分词 基于规则的分词在已经建⽴好词库的前提下,通过扫描⽂本内容匹配到词库中,若词库中存在⽂本中某词,则把该词单独提取出来。 基于统计的分词需要建⽴语料库并设计分词模型,将中⽂⽂本通过训练好的模型进⾏⾃动分词。 混合分词先进⾏基于规则的分词、再进⾏基于统计的分词,这样分词效果最好,但是也最⿇烦。
1
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。 从 3.0 版本开始,IK 发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认优化实现。 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。
2022-04-21 17:29:03 3.22MB IK Analyzer 中文分词
1
python3.6实现中文语料文本的BSBI算法(倒排索引)索引程序实现。包括中文文本分词,停用词表。
1
Seg_CRF CRF中文分词实验 Windows x64 python 2.7.9 CRF++-0.58 评测采用 icwb2-data 中的评测脚本 ref:
2022-04-20 18:52:23 1.77MB Python
1
使用CRF随机条件场进行中文文本分词,基于python已调通,带数据集
2022-04-19 23:14:11 16.32MB CRF条件随机场 中文分词 自然语言处理
1
人工智能深度学习,中文分词代码,准确无误。rnn-tutorial-gru-lstm-master分词
2022-04-19 20:04:37 31.19MB gru-lstm 中文分词
1
本章为该课程的其中一个章节 【全部课程列表】 01-C#基础(共40页) 02-搜索引擎基础(共15页) 03-网络爬虫(共27页) 04-正则表达式(共13页) 05-HtmlAgilityPack(共17页) 06-正文提取(共12页) 07-提取文件(共14页) 08-文本排重(共28页) 09-提取关键词(共16页) 10-拼写检查(共41页) 11-文本摘要(共15页) 12-文本分类(共12页) 13-文本聚类(共21页) 14-信息提取(共14页) 15-中文分词(共10页) 16-查词典(共37页) 17-逆向分词(共13页) 18-有限状态机(共31页) 19-切分词图(共16页) 20-概率分词(共26页) 21-n元分词(共38页) 22-词性标注(共34页) 23-Lucene简介(共23页) 24-索引原理(共22页) 25-查询原理(共13页) 26-分析器(共15页) 27-概念搜索(共13页) 28-相关度打分(共12页) 29-搜索界面(共12页) 30-AJAX搜索界面(共25页) 31-Solr(共29页) 32-SolrNet(共10页) 插图
2022-04-12 09:08:00 2.23MB c# 搜索引擎 中文分词 词性标注