基于深度学习的文本分类系统(完整代码+数据)bert+rnn textcnn fastcnn bert.rar
2023-01-17 06:50:17 5.82MB bert 文本分类 情感分析 深度学习
1
适用于中文中长文本分类 原始数据集和已经划分的数据集已给出 划分的数据集经过数据预处理,删除了其中的重复文本,以及文本长度小于50的句子,最终构造的平衡语料 训练集 5800 测试集 1000条 验证集1000 (正负评论各站一半)
1
HiAGM:层次结构文本分类的层次结构感知全局模型 该存储库实现了层次结构感知的结构编码器,用于标签空间和文本特征之间的相互交互。 这项工作已被接受为ACL 2020中的长篇论文《的》。该存储库中提出了NYTimes(《纽约时报》)和WoS(Web of Science)的数据集拆分。 层次感知全局模型 具有层次结构意识的全局模型利用预先定义的层次结构的先验知识改进了常规文本分类模型。 项目文件夹由以下部分组成: config:配置文件(json格式) 数据:数据目录,可以在配置文件中更改(带有示例数据) data_modules:数据集/ DataLoader /整理器/ Vocab 助手:配置/ Hierarchy_Statistic /记录器/实用工具 模型:StructureModel / EmbeddingLayer / TextEncoder / TextPropaga
1
建立实验环境 1个安装python(2.7) 2安装点: 2.1下载pip 2.2解压缩后,安装指令python setup.py install 2.3 pip升级python -m pip install --upgrade pip 2.4 pip安装扩展包pip install jieba(这里以jieba包为例),如果速度较慢,可转换内部的阿里源,即pip install jieba -i --trusted-host mirrors.aliyun.com 3安装pycharm 4使用GitHub获取代码 4.1安装git 4.2登陆自己的GitHub账号,找到自己的项目,(别人的需要先fork过来,也可以直接git clone xxx,或者直接下载zip包放进pycharm) 4.3:pycharm,首先设置git的位置及github账号,点击Test都通过后继续,依次在菜单栏上单击,从版本控制GitHub上进行VCS检出,登陆自己的账号后选择相应的项目,得到代码。 4.4(更新fork的项目到最新的版本)同步叉子 5 ipython协同开发环境 5.
2022-12-23 21:57:16 76.57MB python nlp NaturallanguageprocessingPython
1
THUNEWS数据集,摘取了五个主题,分别为1.娱乐 2.房产 3.体育 4.股票 5.科技 训练集1 每个主题100个数据 一共500个 训练集2 每个主题1000个数据 一共5000个 训练集2 每个主题10000个数据 一共50000个 测试集 每个主题1000个数据 一共5000个
2022-12-14 17:11:54 92.78MB 数据集 THUNEWS 文本分类 机器学习
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2022-12-13 23:18:17 70KB 词频计算
1
一个基于机器学习的新闻标题分类系统源码+数据集+训练好的模型+项目操作说明_本科毕设项目.7z bert_base中文预训练模型训练NLPCC2017 Task2新闻标题分类数据集的句向量 【环境配置要求】 Python:3.8.13 操作系统:Windows 数据库:MySQL Web框架:Flask 模型训练:sklearn 1.Anaconda创建虚拟环境 conda create -n Graduation python=3.8 命令行切换到对应目录 2.安装第三方库 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple 3.将数据导入数据库 mysql -u root -p --local-infile=1 < D:\Bachelor_Graduation\Bachelor_Graduation.sql 【备注】主要针对正在做毕设的同学和需要项目实战的机器学习、深度学习cv图像识别模式识别方向学习者。 也可作为课程设计、期末大作业。
文字分类系统 系统的介绍如何构建一个完整的文本分类系统,包括数据预处理,主要方法的原理介绍和实现细节,实验结果与分析,网页演示的构建以及项目文件的组织方式。项目的原理和处理细节可以查看我的博客专栏: :
2022-12-12 21:42:24 6.42MB 系统开源
1
这是一个简单的应用LSTM在Pytorch文本分类任务上,使用贝叶斯优化超参数调优。 【配置】 可以在src/constants.py文件中设置各种超参数。 每个变量的说明如下。 注意,对于贝叶斯优化,要调优的超参数应该以元组的形式传递。 你可以将参数设置为一个元组或一个特定的值。 前者意味着该论证将被纳入贝叶斯优化的主题,而后者意味着它不应被纳入。 【操作运行】 参考代码中的项目说明文件,按照说明一步步操作
朴素贝叶斯学习笔记,和文本分类代码实现。 可用于不明白朴素贝叶斯算法或者不知道改如何调用python的sklearn实现朴素贝叶斯算法的初学者
2022-11-27 19:27:43 5KB 机器学习
1