这个链接是训练集,测试集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2017-02-06 00:00:00 50.38MB 中文文本分类 文本分类语料
1
最大熵模型用于文本分类的例子,里面有数据集和Python代码
2015-05-08 00:00:00 19.9MB 最大熵 文本分类
1
斯坦福大学自然语言处理的相关课件,英文版本,里面介绍了文本分类知识,学习文本分类的同学可以将此作为参考的教程。
2014-12-15 00:00:00 2.28MB 文本分类
1
基于内容的文本分类系统 (这是一个完整的分类系统,用java写的,分词是中科院64位的分词) 详情:http://blog.csdn.net/yinchuandong2/article/details/17717449 使用libsvm 进行分类 使用中科院的分词器ICTLAS对训练集进行分词
2014-01-01 00:00:00 40.58MB libsvm svm 文本分类 分词
1
搜狗最新文本分类语料库 C000007 汽车 C000008 财经 C000010 IT C000013 健康 C000014 体育 C000016 旅游 C000020 教育 C000022 招聘 C000023 文化 C000024 军事
1