针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用 LDA 主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用 SVM 分类方法进行短文本的分类。实验表 明,该方法在性能上与传统的直接使用 VSM 模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充 LDA 特征信息的方法是切实可行的。
2019-12-21 18:56:42 1.14MB LDA 短文本分类
1
资源为新闻类的中文文本分类数据集,能够满足机器学习,文字分析方面的需求
2019-12-21 18:56:23 61.06MB 11
1
【SVM】文本多分类源码,加了很多注释,按照README里面就能运行,,数据集也在里面,,自己把数据集直接放到E盘根目录下(程序里面写死了),或者自己放个里面,然后TrainProcess.java里面改也可以。
2019-12-21 18:55:45 59.51MB svm 文本分类 代码实现
1
20newsgroup数据集是机器学习中的一个标准数据集。它包含18828个文档,来自于20个不同的新闻组。 该资源包含一个原信息文件和3个目录:test、train和raw。测试和训练目录将整个数据集切分为60%的训练和40%的测试文档。
2019-12-21 18:54:51 39.78MB 20newsgroup 文本挖掘 文本分类 数据集
1
NLP小白入门——超全中文文本分类系统(train set & test set + stop word*4 + word2vec + TF-IDF + Naive Bayes)
2019-12-21 18:54:41 13.63MB 自然语言处理
1
50000条新闻文本数据集,文本有9类。可用于文本分类模型训练。
2019-12-21 18:53:33 124.06MB 深度学习 训练数据集 LSTM数据集
1
搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的,处理了部分文档,如果需要更多可以联系我。 免费下载链接:https://share.weiyun.com/X0prakLr
2019-12-21 18:52:17 83.69MB 搜狗语料库 jieba分词 文本分类
1
作 者 刘伍颖 出版社 国防工业出版社 页 数 160页 出版日期 2014年10月1日 语 种 简体中文 ISBN 9787118097597 《面向大数据的高效能垃圾文本分类》全面介绍了大数据时代垃圾信息的爆发态势和文本特性,并根据信息文档的多域结构特性和文本Token频率分布的幂律特性,提出了多域学习的思想。研究了一整套面向大数据的高效能垃圾文本分类方法。《面向大数据的高效能垃圾文本分类》共分7章,第1章分析大数据时代垃圾信息态势,第2章概述垃圾信息过滤方法,第3章研究电子邮件文档和手机短信文档的文本特性,第4章研究多域学习总体框架,第5章提出基于Token频率索引的文本分类算法,第6章研究有监督反馈代价问题,第7章设计面向大数据的高效能垃圾文本过滤系统。《面向大数据的高效能垃圾文本分类》可以作为普通高等院校、科研机构大数据计算技术相关专业高年级本科生或研究生的实验教材,也可供网络信息技术公司高级研究人员参考。
2019-12-21 18:52:14 61.63MB 大数据
1
自己写的一些文本分类的代码
2019-12-21 18:51:53 57KB svm,lstm
1
本语料库由复旦大学李荣陆提供。训练语料和测试语料两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
2019-12-21 18:51:02 111.24MB 文本分类
1