中科院分词系统,开发,古诗自动生成程序。
2020-01-03 11:36:46 16.08MB 中科院分词
1
中文自动分词 1. 使用任意分词方法实现汉语自动分词; 2. 给出至少1000个句子的分词结果(以附件形式); 3. 计算出分词结果的正确率,并给出计算依据; 4. 用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力; 5. 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。
2020-01-03 11:30:38 376KB 中文自动分词 哈工大 中文信息处理
1
中文网页分词 1.目的 通过设计、编制、调试一个中文网页分词程序,加深对词法分析原理得以应用的理解 2.设计内容及要求 程序输入:中文网页 程序输出:有意义的中文词组,并标注其词性,如动词、名词、形容词、副词、数字、日期等,输出到文本文档中; test是语料库文件,test1是输入文件 另外一个是输出文件 还有一个.cpp的,一个.h的资源文件, 在VS2012里调试通过,
2020-01-03 11:29:31 2.11MB 中文分词C++
1
中文分词 正想最大匹配 结合词典所完成的分词系统 C++代码
2020-01-03 11:26:35 4.78MB 分词 c++
1
分词_频数_词性@35万_结巴语料,分词_频数_词性@35万_结巴语料
2020-01-03 11:24:39 64B nlp 语料 频数 词性
1
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。
2020-01-03 11:24:35 3.63MB 中文分词 最大匹配
1
freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip ICTCLAS源码结构 Codes │ ICTCLAS_WIN.cpp Windows界面的程序 │ ICTCLAS_Win.dsp │ ICTCLAS_WIN.dsw │ ICTCLAS_WIN.h │ ICTCLAS_Win.exe 可执行程序 │ ICTCLAS_WinDlg.cpp │ ICTCLAS_WinDlg.h │ resource.h │ StdAfx.cpp │ StdAfx.h │ log.txt 日志 │ ICTCLAS_Win.rc Windows界面的资源 │ ├─Utility 共用函数模块 │ ContextStat.cpp │ ContextStat.h │ Dictionary.cpp │ Dictionary.h │ Utility.h │ Utility.cpp │ ├─Unknown 未登录词识别模块 │ UnknowWord.cpp │ UnknowWord.h │ ├─Tag HMM标注模块 │ Span.cpp │ Span.h │ ├─Segment 词语切分模块 │ DynamicArray.h │ NShortPath.cpp │ NShortPath.h │ Queue.cpp │ Queue.h │ SegGraph.cpp │ Segment.cpp │ Segment.h │ DynamicArray.cpp │ SegGraph.h │ ├─Result 结果生成模块 │ Result.cpp │ Result.h │ ├─Data 概率数据文件 │ lexical.ctx │ BigramDict.dct │ coreDict.dct │ nr.dct │ nr.ctx │ ns.ctx │ ns.dct │ tr.dct │ tr.ctx │ └─res Windows界面的资源
1
基于C++编写的中文分词程序,内有完整的代码,且有小词库,解压即可运行
2020-01-03 11:19:05 28KB 分词
1
用VB进行的分词实验,包括词频、字频统计
2020-01-03 11:17:59 3.08MB vb 中文分词
1
运用Jieba分词对红楼婪进行词云分析,可以分析红楼梦中词频及人物关系。
2020-01-03 11:17:35 107KB Jieba分词
1