搜索【中文文本】的结果

中文文本分类实验

中文文本分类完整流程的简单实现，分词、去停用词、提取特征、计算文档的特征向量、支持向量机训练、测试文档分类，简单实现，其中词频统计、去停用词使用布隆过滤器加速，效果不错

2021-03-09 19:55:13 383KB 文本分类 布隆过滤器 特征向量

1

复旦中文文本分类语料库训练集

训练集

2021-03-02 19:04:30 144.1MB 文本分类

1

一种基于逆向匹配算法的中文文本分类技术

针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。

2021-02-22 18:07:26 255KB 文本分类; 逆向匹配算法; 增益权值; 主题词表

1

Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法

利用Python实现中文文本关键词抽取，分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

2021-02-20 18:25:05 888KB Python开发-自然语言处理

1

pdf libharu 库应用样例绘制线绘制面绘制中文文本

vs2008样例，包含以及编译好的libharu 32位库 pdf libharu 库应用样例绘制线绘制面绘制中文文本 pdf libharu 库应用样例绘制线绘制面绘制中文文本 pdf libharu 库应用样例绘制线绘制面绘制中文文本

2021-02-05 13:27:29 2.3MB pdf libharu 绘制线面 输出中文文本

1

基于向量空间模型的中文文本相似度的研究

在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法，详细介绍了向量空间模型和算法步骤，采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库，在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试，结果表明新算法在误差率方面有较大改善，但运行时间较长。

2021-01-28 02:33:53 1.57MB 文本相似度； 向量空间模型； 分词； 信息处理；

1

基于svm的中文文本分类系统

基于内容的文本分类系统，使用libsvm 进行分类。

2020-12-30 15:13:41 40.58MB svm 文本分类 中文分词 libsvm

1

复旦中文文本分类-训练集

本语料库由复旦大学李荣陆提供。训练和测试两个语料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。

2020-01-03 11:24:19 109.68MB 文本分类

1

复旦大学中文文本分类数据集-训练+测试

由复旦大学李荣陆提供。answer.rar为测试语料，共9833篇文档；train.rar为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。

2019-12-25 11:15:53 103.28MB 数据集 中文语料库

1

中文文本分类语料（复旦）（完整版）

中文文本分类语料（复旦）-训练集和测试集这个链接是训练集，本语料库由复旦大学李荣陆提供。test_corpus为测试语料，共9833篇文档；train_corpus为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大，下载时请耐心等待。

2019-12-21 22:04:21 101.81MB 文本分类 数据集 复旦中文

1

个人信息

热门下载

最新下载

其他资源