使用CNN和Word2vec进行文本分类 本文是参考gaussic大牛的“ text-classification-cnn-rnn”后,基于同样的数据集,嵌入词级别操作的CNN文本分类实验结果,gaussic大牛是基于字符级的;进行了第二版的更新:1。加入不同的卷积核; 2。加入正则化; 3。词唯一的中文或英文,删除掉文本中数字,符号等类型的词; 4。删除长度为1的词训练结果较第一版有所提升,验证集准确率从96.5%达到97.1%,测试准确率从96.7%达到97.2%。 本实验的主要目是为了探索基于Word2vec训练的词向量嵌入CNN后,对模型的影响,实验结果得到的模型在验证集达到97.1%
2021-03-11 19:01:08 15.65MB text-classification tensorflow word2vec cnn
1
中文文本分类完整流程的简单实现,分词、去停用词、提取特征、计算文档的特征向量、支持向量机训练、测试文档分类,简单实现,其中词频统计、去停用词使用布隆过滤器加速,效果不错
2021-03-09 19:55:13 383KB 文本分类 布隆过滤器 特征向量
1
百度停用词表baidu_stopwords
1
中文停用词表cn_stopwords
1
哈工大停用词表hit_stopwords
1
四川大学机器智能实验室停用词库scu_stopwords
1
搜狗实验室新闻数据 文本分类
2021-03-08 09:14:32 711.76MB 大数据 自然语言处理
1
包含体育、游戏等10个类别,共60000多条数据 格式:标签\t文本语料
2021-03-07 19:02:17 66.13MB 文本分类 新闻语料
1
训练集
2021-03-02 19:04:30 144.1MB 文本分类
1
中文垃圾邮件项目: 数据集分为:ham_data.txt 和 Spam.data.txt , 对应为 正常邮件和垃圾邮件 其中每行代表着一个邮件
2021-02-25 20:49:55 1.2MB 文本分类
1