针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下,降低权重; 另一方面关联不同词以减少稀疏性,增加权重。
2019-12-21 21:22:16 831KB LDA
1
压缩包中包括python脚本和一个PPT。 在UtralEdit中打开这两个脚本NBayes_lib.py和NBayes_test.py就可以查看脚本,然后运行NBayes_test.py这个脚本就可以得到测试集文本1的分类结果是0 PPT详解了朴素贝叶斯算法的原理以及这个文本分类器的程序思想和运行结果详解,希望对你能够有帮助,如果有任何问题,请留言!
2019-12-21 21:21:08 249KB Python 朴素贝叶斯
1
数据挖掘,pyton3.6文本分类
2019-12-21 21:20:15 849KB 文本分类
1
之前的最好资源描述如下: svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0D.dll,有些是缺少分词程序和数据导致分词程序初始化失败,还有的缺少直接训练测试的语料库。 本人经过整理和编译测试,保证本压缩包解压后不仅有可以直接使用的.exe程序,而且所包含的源代码可以编译通过。可供广大学者研究使用。 ============================================ 此次发布改进: 1 增加了此前版本仍缺少的xerces-c_2_2_0.dll; 2 将Feather改为Feature,意为特征; 3 此版本最大的改进是可以编译Release版,此前版本不能。 4 编译Release版时,需要把xerces文件夹置于vc的include目录下,并在在Link设置页面加入2个lib文件。 5 此版本为完整版,并用winrar进行了最大压缩。 特别说明: 感谢李荣陆老师无私共享。
2019-12-21 21:12:07 9.55MB SVMCLS 文本分类 李荣陆
1
采用SVM算法进行文本特征提取 形成特征向量
2019-12-21 21:10:18 3.55MB 文本分类 特征提取
1
这一我自己写的weka文本分类器,里面有代码的注视,也有样本数据,可以方便大家入门使用
2019-12-21 21:05:43 17.53MB 文本分类; weka; 分类算法
1
本报告包括详尽完整的文本分类处理过程,包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测,通过混淆矩阵和roc曲线展现了实现效果。实验报告写的很详细,不懂的地方可以看报告以及看博客中的部分细节讲解。
2019-12-21 21:03:20 4.05MB 数据挖掘 文本分类
1
复旦大学中文语料分类数据 3个子文档 一共有19666个文档 是很好的分类语料库
2019-12-21 20:56:55 105.02MB wenbenfenlei
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2019-12-21 20:55:18 70KB 词频计算
1
lstm+attention在文本分类中的python代码文件,,,,,
2019-12-21 20:48:32 6KB s'j'm
1