ik中文分词词库30万中文分词词库(含电商) ik中文分词词库30万中文分词词库(含电商)
2020-11-19 10:31:51 1.28MB 电商 ik中文分词 词库
1
简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
2020-02-01 03:08:53 5.83MB scws php中文分词 中文分词
1
中文分词一直都是中文自然语言处理领域的基础研究。目前,分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。 本程序还可以从我的github上面下载:https://github.com/Zehua-Zeng/Maximum-Matching-Algorithm
2020-01-04 03:15:05 9.29MB 正向 最大匹配 中文分词 自然语言处理
1
参考网络资源使用IKAnalyzer分词组件,实现了在Spark框架下使用Scala语言对唐诗宋词等国学经典进行中文分词统计排序的功能,你可以轻松发现唐诗宋词中最常用的词是那几个。
2020-01-03 11:43:20 395KB Spark Scala 中文分词 IKAnalyzer
1
包内包含中文分词作业描述、C语言源程序、可执行文件和说明文档
2020-01-03 11:38:39 3.59MB 分词 C 中文分词
1
中文网页分词 1.目的 通过设计、编制、调试一个中文网页分词程序,加深对词法分析原理得以应用的理解 2.设计内容及要求 程序输入:中文网页 程序输出:有意义的中文词组,并标注其词性,如动词、名词、形容词、副词、数字、日期等,输出到文本文档中; test是语料库文件,test1是输入文件 另外一个是输出文件 还有一个.cpp的,一个.h的资源文件, 在VS2012里调试通过,
2020-01-03 11:29:31 2.11MB 中文分词C++
1
中文分词 正想最大匹配 结合词典所完成的分词系统 C++代码
2020-01-03 11:26:35 4.78MB 分词 c++
1
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。
2020-01-03 11:24:35 3.63MB 中文分词 最大匹配
1
freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip ICTCLAS源码结构 Codes │ ICTCLAS_WIN.cpp Windows界面的程序 │ ICTCLAS_Win.dsp │ ICTCLAS_WIN.dsw │ ICTCLAS_WIN.h │ ICTCLAS_Win.exe 可执行程序 │ ICTCLAS_WinDlg.cpp │ ICTCLAS_WinDlg.h │ resource.h │ StdAfx.cpp │ StdAfx.h │ log.txt 日志 │ ICTCLAS_Win.rc Windows界面的资源 │ ├─Utility 共用函数模块 │ ContextStat.cpp │ ContextStat.h │ Dictionary.cpp │ Dictionary.h │ Utility.h │ Utility.cpp │ ├─Unknown 未登录词识别模块 │ UnknowWord.cpp │ UnknowWord.h │ ├─Tag HMM标注模块 │ Span.cpp │ Span.h │ ├─Segment 词语切分模块 │ DynamicArray.h │ NShortPath.cpp │ NShortPath.h │ Queue.cpp │ Queue.h │ SegGraph.cpp │ Segment.cpp │ Segment.h │ DynamicArray.cpp │ SegGraph.h │ ├─Result 结果生成模块 │ Result.cpp │ Result.h │ ├─Data 概率数据文件 │ lexical.ctx │ BigramDict.dct │ coreDict.dct │ nr.dct │ nr.ctx │ ns.ctx │ ns.dct │ tr.dct │ tr.ctx │ └─res Windows界面的资源
1
基于C++编写的中文分词程序,内有完整的代码,且有小词库,解压即可运行
2020-01-03 11:19:05 28KB 分词
1