搜索【中文文本】的结果

中文文本分类数据集.zip

新闻栏目中文文本分类，新闻栏目一共有：体育 5000 时政 5000 房产 5000 家居 5000 财经 5000 时尚 5000 科技 5000 教育 5000 娱乐 5000 游戏 5000 每个新闻栏目拥有5000条新闻，通过对新闻内容作为样本训练模型，使得该模型能够预测出该条新闻所属的栏目。

2019-12-21 20:19:49 66.03MB 文本分类数据集

1

中文文本自动分词和标注

本书介绍了信息处理用现代汉语分词词表的收词原则和方法，《信息处理用现代汉语分词规范》设计原则及规范内容，中文文本歧义切分技术等内容。

2019-12-21 20:06:49 3.02MB 文本挖掘 文本标注 自然语言处理 分词

1

中文文本分类停用词表

中文文本分类，停用词表

2019-12-21 20:05:36 3KB 停用词表

1

kmeans中文文本聚类java源码（包括对文本tf，idf的计算，文本相似度计算）

算法思想：提取文档的TF/IDF权重，然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度，用标准的k-means算法就可以实现文本聚类。源码为java实现

2019-12-21 20:02:37 9KB kmeans 中文 文本聚类 tf

1

中文文本预处理；k-means聚类

课程作业，是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等

2019-12-21 19:51:50 12KB 文本预处理

1

中文文本停用词表

2019-12-21 19:47:42 6KB 中文停用词

1

word2vec词向量训练及中文文本相似度计算【源码+语料】

该资源主要参考我的博客：word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动百科、维基百科）中文语料，涉及到国家、景区、动物和人物。同时包括60M的腾讯新闻语料，是一个txt，每行相当于一个新闻。国家包括了Python的Jieba分词代码，详见博客。免费资源希望对你有所帮助~

2019-12-21 19:41:38 142.09MB word2vec 源码 中文预料 词向量

1

十六进制转换中文、文本、字符串工具，抓包分析工具。16年7月更新。

2016年7月21日更新，修改了碰到换行、回车、00字符会中止转换的问题。可以把十六进制转换成中文、文本、字符串，也可以把中文、文本、字符串转换成十六进制，同时生成十六进制与字符的对照表，主要用于对抓包的十六进制数据进行分析，也适用网络通信程序的开发和调试。注意，如果十六进制数据是压缩或加密了的，生成的结果会是乱码，这不是程序的问题。

2019-12-21 19:37:48 161KB 十六进制 转换中文抓包

1

word2vec词向量训练及中文文本相似度计算

用来得到TXT文本中词语的相关性的深度学习模型，需要分词，text8为样例，运行脚本可以直接开始训练。最后得到.bin模型

2019-12-21 18:59:02 31.81MB word2vec 深度学习

1

中文文本分类语料（复旦）训练集+测试集（100M）完整版

2019-12-21 18:58:20 103.25MB 中文文本分类 分类语料 训练集 测试集

1

个人信息

热门下载

最新下载

其他资源