textclassify 利用bow(词袋特征)、tfidf、word2vec进行中文文本分类 下图为部分数据集 第一列为分类标签,第二列为文本数据,是关于七类文学作品的简介 requirements gensim sklearn bow accuracy=0.918533,precision=0.918528,recall=0.918533,f1=0.918515 tfidf accuracy = 0.931081, precision = 0.931091, recall = 0.931081, f1 = 0.931071 word2vec accuracy = 0.573359, precision = 0.565731, recall = 0.573359, f1 = 0.567236
2021-11-30 19:03:42 8KB Python
1
一种面向电网故障案例的文本分类方法,崔剑飞,闫丹凤,电力系统在长期发展中积累了大量的故障案例文本数据,为从中提取故障描述、故障处理、改进建议等信息需利用文本分类技术。故障案
2021-11-30 16:20:08 648KB 首发论文
1
采用卷积神经网络(cnn)进行文本分类,依赖dl4j 简介 基于dl4j-example中的示例,训练数据较少,从某东上拉取了几百条产品及类型划分,可以用于文本分类,搜索意图识别 train.txt示例,第一列表示产品分类,后边则是分词后的产品名称 eg.衣服 海澜之家 旗下 品牌 海澜 优选 生活馆 多色 条纹 短袖 t 恤 男 浅灰 条纹 07170 / 95 运行 1.运行Word2VecUtil.main生成word2vec.bin模型文件,data目录已存在,训练数据采用train.txt中的产品名称 2.运行CnnSentenceClassificationExample.main训练模型并输出测试结果 测试结果 Type:衣服, ProductName : 【 一件 48 两件 78 三件 98 】 t 恤 男 2018 男装 韩 版 夏季 短袖 t 恤 男 短袖 体恤 衣服
2021-11-30 11:25:25 3.61MB Java
1
基于N元语言模型的文本分类方法.pdf 汉语n元模型统计软件.ppt 基于N元语法的汉语自动分词系统研究.pdf 一种基于N元语法分布的语言模型自适应方法.pdf 语言模型的基本概念.doc N元语言模型的解码算法.doc N元语言模型的训练方法.doc 自动文本分类.pdf
2021-11-27 18:24:19 1.53MB N元语言模型 文本分类
1
新闻文本分类数据集,详情见https://editor.csdn.net/md/?articleId=121462685
2021-11-26 09:11:06 243.3MB 新闻文本分类
1
这是一个 C++ 的朴素贝叶斯文本分类器库,可以对文本中的垃圾邮件、基因、情感类型进行分类。 自 1950 年代以来,朴素贝叶斯已被广泛研究。 它在 1960 年代初期以不同的名称引入文本检索社区,并且仍然是文本分类的流行(基线)方法,判断文档属于一个类别或另一个类别的问题(例如垃圾邮件或合法,体育或政治等)以词频为特征。 通过适当的预处理,它在该领域具有竞争力,包括支持向量机在内的更先进的方法。它还在自动医疗诊断中得到应用。
2021-11-25 19:55:21 19KB 开源软件
1
传统文本分类使用word embedding作为文档表示,忽略词在当前上下文的含义,潜在地认为相同词在不同文本中含义相同。针对此问题提出一种词义消歧的卷积神经网络文本分类模型——WSDCNN(word sense disambiguation convolutional neural network)。使用双向长短时记忆网络(BLSTM)建模上下文,得到词义消歧后的文档特征图;利用卷积神经网络(CNN)进一步提取对文本分类最重要的特征。在四个数据集上进行对比实验,结果表明,所提出方法在两个数据集,特别是文档级数据集上优于先前最好的方法,在另外两个数据集上得到与此前最好方法相当的结果。
1
其中包括程序项目三个, Text CNN,RNN+CRT,CNN+LSTM的文本分类。包括数据训练集和测试集。文本分类是NLP的基础任务,掌握它是进阶的基础 enjoy
2021-11-23 20:31:22 253.94MB rnn nlp 分类算法 lstm
1
基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
2021-11-23 11:40:04 106B
1
毕业设计 计算机 源码 基于AdaBoost算法的情感分析研究 此项目为本科毕业设计项目,目前已经没有时间更新了,文章、代码都有很多错误,大家借鉴一下思路就好,不要仔细研究 大学时没有好好学算法,毕竟那些树、图实在提不起兴趣,好在毕业设计选择了个机器学习算法,整了个还算是有点意思的项目,至少弥补了大学的一点点的遗憾。现在将项目开源出来,虽然感觉还是写得没有达到自己的预期,大部分也是参考别人的,有兴趣的可以下载看看吧。如果可以,希望能给个star或者fork奖励奖励 文本分类基本流程 运行环境 [anaconda: 3.5+] 本文项目流程 一、 使用微博应用获取微博文本,代码地址 二、 SVM初步分类(svm_temp.py) 三、 利用贝叶斯定理进行情感分析 四、 利用AdaBoost加强分类器 完整文档可以看doc 一、获取微博文本 二、SVM初步分类 三、使用朴素贝叶斯分类 四、AdaBoost 4.1 二分类AdaBoost 4.2 多分类AdaBoost 4.2.1 AdaBoost.SAMME 4.2.2 AdaBoost.SAMME.R
2021-11-22 20:06:27 6.39MB 系统开源
1