这份代码是我们专业的一个实验,内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
2021-06-25 09:04:28 15KB 分词算法 KNN文本分类算法 python
文本挖掘是从大量 文本数据中抽取隐含的,未知的,可能 有用的信息。 文本挖掘的研究意义 电子化的文本数量不断增长
2021-06-23 16:51:03 958KB 文本挖掘 词法分析
1
分词算法词库,搜狗词库(200W+27W+40W)
2021-06-18 19:09:18 10.54MB 分词算法词库 搜狗词库
1
这份代码是我们专业的一个实验,内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
2021-05-13 10:48:42 15KB KNN NLP 正向最大匹配分词 文本分类
1
主要介绍了python实现机械分词之逆向最大匹配算法代码示例,具有一定借鉴价值,需要的朋友可以参考下。
1
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。
1
根据公司某部门项目合同数据处理的需求,我自己写的一个以Excel表为输入数据的界面化软件。主要功能为包括:批量输入N个Excel表的数据并进行数据规范化汇总,然后根据分词结果,用余弦定理进行字段的模糊匹配,相似度阈值可以手动调整,分词库也可以自己优化调整,全过程界面化显示,是个成熟度比较高的小软件。使用模块化开发,fuction.cs 中包含很多对Excel操作的函数,可以给大家借鉴到其他场景使用。
2021-02-06 10:07:07 1.71MB Excel 模糊匹配 相似度比对 分词算法
1
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。
2020-01-03 11:24:35 3.63MB 中文分词 最大匹配
1
java 实现的基于FMM BMM算法的,中文分词算法(代码)
2019-12-21 21:10:30 3.96MB FMM BMM java 分词
1
这是一个关于CRF的源代码,能直接来用,欢迎广大朋友下载
2019-12-21 20:09:27 354KB CRF
1