搜索【中文文本分类】的结果

使用CNN和Word2vec进行文本分类本文是参考gaussic大牛的“ text-classification-cnn-rnn”后，基于同样的数据集，嵌入词级别操作的CNN文本分类实验结果，gaussic大牛是基于字符级的；进行了第二版的更新：1。加入不同的卷积核； 2。加入正则化； 3。词唯一的中文或英文，删除掉文本中数字，符号等类型的词； 4。删除长度为1的词训练结果较第一版有所提升，验证集准确率从96.5％达到97.1％，测试准确率从96.7％达到97.2％。本实验的主要目是为了探索基于Word2vec训练的词向量嵌入CNN后，对模型的影响，实验结果得到的模型在验证集达到97.1％

2021-03-11 19:01:08 15.65MB text-classification tensorflow word2vec cnn

1

中文文本分类实验

中文文本分类完整流程的简单实现，分词、去停用词、提取特征、计算文档的特征向量、支持向量机训练、测试文档分类，简单实现，其中词频统计、去停用词使用布隆过滤器加速，效果不错

2021-03-09 19:55:13 383KB 文本分类 布隆过滤器 特征向量

1

复旦中文文本分类语料库训练集

训练集

2021-03-02 19:04:30 144.1MB 文本分类

1

一种基于逆向匹配算法的中文文本分类技术

针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。

2021-02-22 18:07:26 255KB 文本分类; 逆向匹配算法; 增益权值; 主题词表

1

基于svm的中文文本分类系统

基于内容的文本分类系统，使用libsvm 进行分类。

2020-12-30 15:13:41 40.58MB svm 文本分类 中文分词 libsvm

1

复旦中文文本分类-训练集

本语料库由复旦大学李荣陆提供。训练和测试两个语料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。

2020-01-03 11:24:19 109.68MB 文本分类

1

复旦大学中文文本分类数据集-训练+测试

由复旦大学李荣陆提供。answer.rar为测试语料，共9833篇文档；train.rar为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。

2019-12-25 11:15:53 103.28MB 数据集 中文语料库

1

中文文本分类语料（复旦）（完整版）

中文文本分类语料（复旦）-训练集和测试集这个链接是训练集，本语料库由复旦大学李荣陆提供。test_corpus为测试语料，共9833篇文档；train_corpus为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大，下载时请耐心等待。

2019-12-21 22:04:21 101.81MB 文本分类 数据集 复旦中文

1

搜狗文本分类语料库-中文文本分类

实现文本分类的主要包括几个步骤文本分词处理，特征选择，特征权重计算，文本特征向量表示，基于训练文本的特征向量数据训练SVM模型，对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类，达到93%的准确率

2019-12-21 21:59:17 26.06MB 文本分类

1

中文文本分类语料库（复旦大学）训练与测试集

中文文本分类语料（复旦大学）-训练集和测试集。测试语料共9833篇文档；训练语料共9804篇文档。使用时请注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。

2019-12-21 21:50:45 106.15MB 中文文本分类 语料库 测试集 训练集

1

个人信息

热门下载

最新下载

其他资源