Bert-Chinese-Text-Classification-Pytorch
中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。
介绍
模型介绍、数据流动过程:还没写完,写好之后再贴博客地址。 工作忙,懒得写了,类似文章有很多。
机器:一块2080Ti , 训练时间:30分钟。
环境
python 3.7
pytorch 1.1
tqdm
sklearn
tensorboardX
pytorch_pretrained_bert(预训练代码也上传了, 不需要这个库了)
中文数据集
我从中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。
类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。
数据集划分:
数据集
数据量
训练集
18万
验证集
1万
测试集
1万
更换自己的数据集
按照
1