中文医学问答数据集 数据集描述:中文医药方面的问答数据集,超过10万条。 数据说明:questions.csv:所有的问题及其内容。answers.csv :所有问题的答案。 train_candidates.txt, dev_candidates.txt, test_candidates.txt :将上述两个文件进行了拆分。
1
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
2019-12-21 21:53:22 61.06MB 自然语言处理 中文数据集
1
资源包含中文车牌号中的数字、字母和省份汉字,可以利用这些字符集来训练和识别车牌号。
2019-12-21 21:35:35 40.9MB 车牌 中文 数据集
1
复旦中文文本分类数据集,包含训练集和测试集,自然语言处理 看论文看到数据堂的复旦中文文本分类语料无法下载,网上找到了训练集和测试集,4积分,良心价
2019-12-21 18:58:39 105.99MB 复旦文本分类 文本分类 中文数据集
1