AG数据集:新闻主题分类数据集,用于文本分类
2023-02-21 16:19:22 7.91MB 分类 数据挖掘 人工智能 机器学习
1
中文新闻分类模型,利用TextCNN模型进行训练,TextCNN的主要流程是:获取文本的局部特征:通过不同的卷积核尺寸来提取文本的N-Gram信息,然后通过最大池化操作来突出各个卷积操作提取的最关键信息,拼接后通过全连接层对特征进行组合,最后通过交叉熵损失函数来训练模型。
2023-02-19 17:06:30 48.44MB TextCNN 文本分类
1
Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着杨博一行一行代码撸起来。
1
随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别在卷积神 经网络和循环神经网络方面,出现了许多新颖且富有成效的分类方法。本文对基于深度神经网络的文本分类问题进行分析。
2023-02-07 17:32:42 747KB 深度学习 文本分类技术
1
基于深度学习的文本分类系统(完整代码+数据)bert+rnn textcnn fastcnn bert.rar
2023-01-17 06:50:17 5.82MB bert 文本分类 情感分析 深度学习
1
适用于中文中长文本分类 原始数据集和已经划分的数据集已给出 划分的数据集经过数据预处理,删除了其中的重复文本,以及文本长度小于50的句子,最终构造的平衡语料 训练集 5800 测试集 1000条 验证集1000 (正负评论各站一半)
1
HiAGM:层次结构文本分类的层次结构感知全局模型 该存储库实现了层次结构感知的结构编码器,用于标签空间和文本特征之间的相互交互。 这项工作已被接受为ACL 2020中的长篇论文《的》。该存储库中提出了NYTimes(《纽约时报》)和WoS(Web of Science)的数据集拆分。 层次感知全局模型 具有层次结构意识的全局模型利用预先定义的层次结构的先验知识改进了常规文本分类模型。 项目文件夹由以下部分组成: config:配置文件(json格式) 数据:数据目录,可以在配置文件中更改(带有示例数据) data_modules:数据集/ DataLoader /整理器/ Vocab 助手:配置/ Hierarchy_Statistic /记录器/实用工具 模型:StructureModel / EmbeddingLayer / TextEncoder / TextPropaga
1
建立实验环境 1个安装python(2.7) 2安装点: 2.1下载pip 2.2解压缩后,安装指令python setup.py install 2.3 pip升级python -m pip install --upgrade pip 2.4 pip安装扩展包pip install jieba(这里以jieba包为例),如果速度较慢,可转换内部的阿里源,即pip install jieba -i --trusted-host mirrors.aliyun.com 3安装pycharm 4使用GitHub获取代码 4.1安装git 4.2登陆自己的GitHub账号,找到自己的项目,(别人的需要先fork过来,也可以直接git clone xxx,或者直接下载zip包放进pycharm) 4.3:pycharm,首先设置git的位置及github账号,点击Test都通过后继续,依次在菜单栏上单击,从版本控制GitHub上进行VCS检出,登陆自己的账号后选择相应的项目,得到代码。 4.4(更新fork的项目到最新的版本)同步叉子 5 ipython协同开发环境 5.
2022-12-23 21:57:16 76.57MB python nlp NaturallanguageprocessingPython
1
THUNEWS数据集,摘取了五个主题,分别为1.娱乐 2.房产 3.体育 4.股票 5.科技 训练集1 每个主题100个数据 一共500个 训练集2 每个主题1000个数据 一共5000个 训练集2 每个主题10000个数据 一共50000个 测试集 每个主题1000个数据 一共5000个
2022-12-14 17:11:54 92.78MB 数据集 THUNEWS 文本分类 机器学习
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2022-12-13 23:18:17 70KB 词频计算
1