复旦大学中文文本分类训练集和测试集 文件太大压缩为了zip格式。 all文件夹为复旦大学中文文本分类语料集, test_corpus为该语料集中挑选部分划分出来的, train_corpus为该语料集中挑选test_corpus后剩余部分划分出来的。 下载以后可以按照自己的要求指定比例划分训练集和测试集,也可以按照本文档的划分方法。
1