深度学习大作业文本分类任务源代码。 使用说明如下: Baselines baseline运行方法:运行 codes/baselines/run.py , 用 --model参数指定需要运行的模型(必选),用 --dataset 参数指定数据集(可选,默认为AGNews) baseline中各模型的超参数设置见各模型定义文件中 预训练参数下载地址: 链接:https://pan.baidu.com/s/1wqxUAA4LpE3LIgF3kP-6QQ 提取码:gaw3 下载后放入 codes/baselines/pre_trained 中即可 数据集: 中文数据集,原作者从THUCNews中抽取的20万条新闻标题。一共10个类别,每类2万条。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 英文数据集,来自文本分类经典数据集AG News,包含新闻的标题、内容和标签。使用中对数据进行了简单处理,将标题和内容进行了拼接作为一列,并将训练数据划分为了训练集和验证集。一共4个类别,每类13900条。 类别:世界、体育、商业、科技。
文字分类器 此仓库是基于Tensorflow2.3的文本分类任务,分别支持: 随机初始单词嵌入+ TextCNN 随机初始词嵌入+注意+ TextCNN 随机初始单词嵌入+ TextRCNN Word2Vec + TextCNN Word2Vec +注意+ TextCNN Word2Vec + TextRCNN 伯特嵌入(没有微调,直接取向量)+ TextCNN Bert嵌入(没有微调,直接取向量)+ TextRCNN 代码支持二分类和多分类,此项目基于爬取的游戏评论正是个二元的情感分类作为演示。 环境 python 3.6.7 张量流== 2.3.0 gensim == 3.8.3 杰巴== 0.42.1 sklearn == 0.0 其他环境见requirements.txt 更新历史 日期 版本 描述 2018-12-01 v1.0.0 初始仓库 2020-10-
2021-12-19 13:33:47 65.45MB word2vec textcnn textrcnn tensorflow2
1
该代码为基于RNN的Tensorflow实现文本分类任务的注意力机制,笔者亲测有效,不需要环境配置等,欢迎大家下载。
2019-12-21 18:50:39 16.26MB tensorflow rnn attention nlp
1