1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。 2、资源中还附有一份停用词。
2021-06-14 10:38:46 86.75MB 中文文本分类 文本分类 语料 停用词
1
answer文件夹为测试语料,共9833篇文档;train文件夹为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试集压缩包各50多兆)
2021-06-01 19:28:39 105.93MB 机器学习 文本分类 分类语料 中文语料库
1
复旦谭松波的,别人辛苦整理,免费发布的东西,拿过来自己赚积分,绝了 数据说明 answer.rar为测试语料,共9833篇文档; train.rar为训练语料,共9804篇文档,分为20个类别。 训练语料和测试语料基本按照1:1的比例来划分。 数据来源 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 问题描述 适合NLP学习使用
2021-04-13 18:43:26 230.73MB 谭松波中文文本分类
1
复旦大学中文文本分类语料.xlsx
2021-03-16 15:24:30 50.67MB 语料 NLP
1
文本分训练和测试集,每个类别2000条新闻,简单做分类,测试效果 是足够了
2020-02-04 03:16:52 8.3MB 文本分类语料
1
中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,下载时请耐心等待。
2019-12-21 22:04:21 101.81MB 文本分类 数据集 复旦 中文
1
复旦中文文本分类数据集,包含训练集和测试集,自然语言处理 看论文看到数据堂的复旦中文文本分类语料无法下载,网上找到了训练集和测试集,4积分,良心价
2019-12-21 18:58:39 105.99MB 复旦文本分类 文本分类 中文数据集
1
中文文本分类语料(复旦)训练集+测试集(100M)完整版
2019-12-21 18:58:20 103.25MB 中文文本分类 分类语料 训练集 测试集
1
1998年1月-6月人民日报语料库,已做词性标记,适用于自然语言处理序列标注等任务,如命名实体识别等,里面包含6个月份
2019-12-21 18:58:10 11.5MB 文本分类语料
1
本语料库由复旦大学李荣陆提供。训练语料和测试语料两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
2019-12-21 18:51:02 111.24MB 文本分类
1