深度学习大作业文本分类任务源代码。
使用说明如下:
Baselines
baseline运行方法:运行 codes/baselines/run.py , 用 --model参数指定需要运行的模型(必选),用 --dataset 参数指定数据集(可选,默认为AGNews)
baseline中各模型的超参数设置见各模型定义文件中
预训练参数下载地址:
链接:https://pan.baidu.com/s/1wqxUAA4LpE3LIgF3kP-6QQ 提取码:gaw3
下载后放入 codes/baselines/pre_trained 中即可
数据集:
中文数据集,原作者从THUCNews中抽取的20万条新闻标题。一共10个类别,每类2万条。
类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。
英文数据集,来自文本分类经典数据集AG News,包含新闻的标题、内容和标签。使用中对数据进行了简单处理,将标题和内容进行了拼接作为一列,并将训练数据划分为了训练集和验证集。一共4个类别,每类13900条。
类别:世界、体育、商业、科技。