实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的准确率
2019-12-21 21:59:17 26.06MB 文本分类
1
中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。使用时请注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2019-12-21 21:50:45 106.15MB 中文文本分类 语料库 测试集 训练集
1
keras实现中文文本分类;实现中文分析,词向量引入;基于语义的特征卷积计算,实现文本分类。
2019-12-21 21:42:31 6KB textCNN
1
中文自动文摘,基于jieba分词,全Java代码。给定文本输出自定义长度的文摘。
2019-12-21 21:18:08 4.56MB 中文 自动文摘 自然语言处理 文本分析
1
python,中文文本,摘要,自动生成,提取,抽取
2019-12-21 20:53:20 6KB python
1
该资源是中文常用的停用词表,一共1893个,供各位参考使用。
1
R语言文本挖掘,设计思想是针对大数据文本挖掘,目前也支持一些第三方分布式运算
2019-12-21 20:39:13 761KB 文本挖掘
1
gensim包的tfidf方法计算中文文本相似度,代码可直接运行,包含中文停用词,方便。
2019-12-21 20:39:02 52KB gensim tfidf 中文相似度
1
使用python实现中文文本聚类,利用kmeans算法,包含jiba分词方法等
2019-12-21 20:34:55 5.32MB python 中文文本聚类 kmeans
1
本语料库由复旦大学李荣陆提供。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以直接用。 免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ 密码:dq9m 使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2019-12-21 20:24:05 106.17MB 中文文本分类 数据集
1