简介 1、本项目是在tensorflow版本1.14.0的基础上做的训练和测试。 2、本项目为中文的多标签文本分类。 3、欢迎大家联系我 4、albert_small_zh_google对应的百度云下载地址: 链接: 提取码:wuxw 使用方法 1、准备数据 数据格式为:classifier_multi_label_textcnn/data/test_onehot.csv 2、参数设置 参考脚本 hyperparameters.py,直接修改里面的数值即可。 3、训练 python train.py 4、预测 python predict.py 知乎代码解读
1
课程目标 (1)采用PyTorch深度学习工具进行实战操作,掌握PyTorch基本使用; (2)掌握工业界短文本处理解决方案,如:对话系统,智能客服,新闻领域分类等; (3)词向量项目案例应用,掌握文本的表示方法; (4)通过项目案例实战,掌握TextCNN短文本分类在工业界应用,可以直接应用在如下领域 例如:对话系统意图识别,智能客服问答意图识别,资讯短文本分类等文本分类场景。 适用人群 (1)想要从事NLP的在校学生、NLP研发工程师 (2)自然语言处理从业者、深度学习爱好者 课程简介 短文本分类作为自然语言处理的基础技术之一NLP领域的热门应用,常用在对话语言平台,文章分类,智能客服,FAQ智能问答等多个场景。 因此深入掌握短文本分类技术,是作为自然语言处理从业者必备技能,本课程以案例驱动出发,结合多个工业级解决方案,了解当下文本分类实际工业界的应用。 课程要求: (1)开发环境:python版本:Python3.x;PyTorch深度学习工具; (3)学员基础:需要一定的Python基础,及深度学习基础; (4)学员收货:掌握深度学习PyTorch工具使用;掌握Text
1
Customer_satisfaction_Analysis 结果整合 Demo 演示 基于用户 UGC 的在线民宿满意度挖掘,负责数据采集、主题抽取、情感分析等任务。开发的目的是克服用户打分和评论不一致,实现了在线评论采集和用户满意度分析。 主要功能包括在线原始评论采集、主题聚类、评论情感分析与结果可视化展示等四个模块,如下所示。 提取后的民宿地址和在线评论等信息如下。 搭建了百度地图 POI 查询入口,可以进行自动化的批量查询地理信息。 通过高频词可视化展示,归纳出评论主题。 构建了基于在线民宿语料的 LDA 自动化主题聚类模型,利用主题中心词能找出对应的主题属性字典,并使用用户打分作为标注,然后通过多种分类模型,选用最优模型对提出的评价主体 进行情感分析,针对主题属性表进行主题提取后的文本进行情感分析,分别得出当前主题对应的情感趋势,横坐标为所有关于主题为“环境”的情感得分,纵坐标为
1
文字分类器 此仓库是基于Tensorflow2.3的文本分类任务,分别支持: 随机初始单词嵌入+ TextCNN 随机初始词嵌入+注意+ TextCNN 随机初始单词嵌入+ TextRCNN Word2Vec + TextCNN Word2Vec +注意+ TextCNN Word2Vec + TextRCNN 伯特嵌入(没有微调,直接取向量)+ TextCNN Bert嵌入(没有微调,直接取向量)+ TextRCNN 代码支持二分类和多分类,此项目基于爬取的游戏评论正是个二元的情感分类作为演示。 环境 python 3.6.7 张量流== 2.3.0 gensim == 3.8.3 杰巴== 0.42.1 sklearn == 0.0 其他环境见requirements.txt 更新历史 日期 版本 描述 2018-12-01 v1.0.0 初始仓库 2020-10-
2021-12-19 13:33:47 65.45MB word2vec textcnn textrcnn tensorflow2
1
本文工作实现了两个模型: Spatial Dropout-GRU模型TextCNN模型,并分别测试了其情感分类效果。 开发环境:python3.6.5、tensorflow==1.12、keras==2.2.4 数据集: 1)训练集。包含2W条左右中文电影评论,其中正负向评论各1W条左右。 2)测试集。包含2w条左右中文电影评论,其中正负向评论各1W条左右。
博客链接:https://blog.csdn.net/qq_44186838/article/details/117995029 主要功能:数据清洗、文本特征提取、建立模型(BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention)、文本摘要 模型简介 **Bi-LSTM** LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据,该模型可以学习长期依赖信息,它通过特殊的门结构来去除或增加信息到细胞状态的能力,门是一种让信息选择式通过的方法,一共有三个门。第一层是忘记门,决定我们会从细胞状态中丢弃什么信息,下一步是确定什么样的新信息会被存放在细胞状态,下一步是更新细胞状态,最后输出信息。 而Bi-LSTM模型由前向的LSTM和后向的LSTM组合而成,能够很好的处理双向数据的序列信息。一个LSTM层式从左往右处理,而另一个是从右往左处理。总体而言,更适合应用于长文本的分类任务。 **TextCNN** TextCNN模型是由 Yoon Kim提出的Convolutional Naural Networks for Sentence Classification一文中提出的使用卷积神经网络来处理NLP问题的模型。TextCnn在文本分类问题上有着更加卓越的表现。从直观上理解,TextCNN通过一维卷积来获取句子中n-gram的特征表示。TextCNN对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快,一般是首选;**对长文本领域,TextCNN主要靠filter窗口抽取特征,在长距离建模方面能力受限,且对语序不敏感。** **CNN+BiLSTM** 在一些任务当中,会选择在卷积层后加上一层LSTM或BiLSTM(反过来则不行),用于增强模型对语义的理解。CNN负责提取文本的特征,而BiLSTM负责理解句子的语义信息。当CNN融合了循环神经网络时,就是结合了这两者的功能,往往效果会有所提升。 PS:不要想着拿TextCNN去融合BiLSTM,不是说不能融合,是没有必要。TextCNN本身就是一个非常优秀的模型了,在TextCNN后面加上一层循环神经网络,往往只是带来了更多的计算时间,其本身对于语义的理解,并没有什么帮助,甚至有可能对结果进行干扰。 **BiLSTM+注意力机制** 当输入的文本非常长的时候,我们之前引以为傲的双向长短期记忆模型也难以成为学霸,对文本有一个很好的向量表达。所以,这个时候就可以考虑使用注意力机制,来尝试抓住文本的重点。具体来讲,Attention机制就是通过保留BiLSTM编码器对输入序列的中间输出结果,再训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。
2021-12-11 18:18:14 23.51MB 情感分类 bilstm textcnn 注意力机制
文字cnn 该代码实现了模型的。 图1:用于句子分类的CNN架构图 要求 Python 3.6 TensorFlow 1.4 (Singleton Config) tqdm 要求 项目结构 通过初始化项目 . ├── config # Config files (.yml, .json) using with hb-config ├── data # dataset path ├── notebooks # Prototyping with numpy or tf.interact
2021-11-27 14:47:41 2.44MB nlp deep-learning sentiment-analysis tensorflow
1
其中包括程序项目三个, Text CNN,RNN+CRT,CNN+LSTM的文本分类。包括数据训练集和测试集。文本分类是NLP的基础任务,掌握它是进阶的基础 enjoy
2021-11-23 20:31:22 253.94MB rnn nlp 分类算法 lstm
1
英文的数据集,机器学期训练数据时用。spam.csv,对垃圾邮箱进行分类,英文的数据集,机器学期训练数据时用。spam.csv,对垃圾邮箱进行分类,英文的数据集,机器学期训练数据时用。spam.csv,对垃圾邮箱进行分类
2021-11-12 14:22:34 211KB 数据集 TextCNN 垃圾邮箱 csv
1
TextClassification-Keras 这个代码库实现了一个各种深学习模型使用Keras框架,其中包括文本分类:FastText,TextCNN,TextRNN,TextBiRNN,TextAttBiRNN,韩,RCNN,RCNNVariant等除了模型实现,简化应用程序包括在内。 指导 环境 Python 3.7 NumPy 1.17.2 Tensorflow 2.0.1 用法 所有代码都位于目录/model ,每种模型都有对应的目录,其中放置了模型和应用程序。 例如,FastText的模型和应用程序位于/model/FastText ,模型部分为fast_text.py ,应用程序部分为main.py 模型 1个FastText FastText是在“提出的。 1.1论文描述 使用查找表,将ngram包转换为单词表示形式。 将单词表示形式平均为一个文本表示形式,它是一个隐藏变量。 文本表示又被馈送到线性分类器。 使用softmax函数可计算预定义类上的概率分布。 1.2在这里实现 FastText的网络结构: 2个TextCNN 在提出了TextCNN
2021-11-09 18:35:46 1.21MB nlp text-classification keras fasttext
1