1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。 2、资源中还附有一份停用词。
2021-06-14 10:38:46 86.75MB 中文文本分类 文本分类 语料 停用词
1
之前的最好资源描述如下: svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0D.dll,有些是缺少分词程序和数据导致分词程序初始化失败,还有的缺少直接训练测试的语料库。 本人经过整理和编译测试,保证本压缩包解压后不仅有可以直接使用的.exe程序,而且所包含的源代码可以编译通过。可供广大学者研究使用。 ============================================ 此次发布改进: 1 增加了此前版本仍缺少的xerces-c_2_2_0.dll; 2 将Feather改为Feature,意为特征; 3 此版本最大的改进是可以编译Release版,此前版本不能。 4 编译Release版时,需要把xerces文件夹置于vc的include目录下,并在在Link设置页面加入2个lib文件。 5 此版本为完整版,并用winrar进行了最大压缩。 特别说明: 感谢李荣陆老师无私共享。
2019-12-21 21:12:07 9.55MB SVMCLS 文本分类 李荣陆
1
数据挖掘文本分类语料库(中文)-李荣陆老师的一部分资料
2019-12-21 19:24:06 3.82MB 分类语料
1