让我们从具有Amazon产品评论的数据集开始,构建结构化的类:6个“级别1”类,64个“级别2”类和510个“级别3”类。探索用于分层文本分类的各种方法。 train_40k.csv unlabeled_150k.csv val_10k.csv
2023-03-07 22:34:42 37.3MB 数据集
1
适用于中文中长文本分类 原始数据集和已经划分的数据集已给出 划分的数据集经过数据预处理,删除了其中的重复文本,以及文本长度小于50的句子,最终构造的平衡语料 训练集 5800 测试集 1000条 验证集1000 (正负评论各站一半)
1
零基础入门NLP-新闻文本分类 test_b.csv test_a_sample_submit.csv test_a.csv test_b_sample_submit.csv train_set.csv
2022-05-31 17:44:08 354.74MB 数据集
1
20news-bydate.tar.gz 文本分类 数据集 20news
2022-05-18 16:43:27 13.79MB 文本分类 数据集 20news
1
个人博客word2vec文本分类使用的数据集,附带了停用词
2022-05-11 22:06:43 2.38MB 分类 文档资料 数据挖掘 人工智能
1
文本分类 test_a.csv train_set.csv
2022-04-12 09:57:50 295.36MB 数据集
1
20news-bydate.tar.gz 文本分类 数据集 20news
2022-03-31 15:36:35 13.79MB 文本分类
1
文本分类介绍,目前的文本分类模型,数据集和模型对应的代码链接,介绍文本分类的流程和发展史。给出多标签文本分类介绍和对应工具
2022-03-10 22:06:15 2.02MB 文本分类 数据集 开源代码 发展历程
1
aclIMDB_v1:大型电影评论数据集(来自斯坦福大学),其中包含50,000个电影评论(50%为负,50%为正)。该集合被划分为训练和验证数据集(每个数据集有25000个电影评论,具有相同数量的正面和负面评论),还包括了5000条未标注的影评。其中有已处理好的单词包 rt-polaritydata:也是IDMB整理的数据集,较上一个数据集小,且已经大致地处理过了,标点符号分隔开,全部小写化。包含10,662个电影评论(半正,半负)。此文件中的每一行都是一则短短的电影评论。
2022-01-08 18:01:31 80.71MB IMDB影评 神经网络 文本分类 情感计算
1